NVIDIA、AIアバター作成用プラットフォームを発表

NVIDIA、インタラクティブなAIアバターを生成するためのテクノロジプラットフォームである、NVIDIA Omniverse Avatarを発表した。

Omniverse Avatarは、音声AI、自然言語理解、レコメンデーション エンジンおよびシミュレーションといった領域における、NVIDIAのテクノロジが組み合わされたものだ。このプラットフォームで作成されたアバターは、レイトレーシングされた3Dグラフィックスによる、インタラクティブなキャラクターで、見ること、話すこと、多様な話題について会話することができ、自然に話された意図を理解することができる。

Omniverse Avatarは、ほぼすべての業界向けに簡単にカスタマイズできるAIアシスタントの創造への扉を開く。このAIアシスタントは、レストランでの注文や銀行取引、個人的なアポイントメントと予約といった、日々の数十億のカスタマー サービスのやり取りで使用することができるため、ビジネス機会の拡大と顧客満足度の向上につながるという。

NVIDIAの創業者/CEOであるジェンスン フアン氏は、次のように述べている。「インテリジェントな仮想アシスタントの夜明けがやって来ました。Omniverse Avatarは、NVIDIAの基盤であるグラフィックス、シミュレーションおよびAIテクノロジを組み合わせて、これまでで最も複雑なリアルタイム アプリケーションを実現します。コラボレーティブなロボットや仮想アシスタントのユースケースは信じられないほど広範囲に及びます」

Omniverse Avatarは、3Dワークフローを実行する、仮想世界のシミュレーションおよびコラボレーションのためのプラットフォームであるNVIDIA Omniverseの一部で、現在オープンベータで7万人以上のユーザーが利用している。NVIDIA GTCの基調講演において、フアン氏は、カスタマー サポート用のProject Tokkio、車内での常時接続で、インテリジェントなサービスのNVIDIA DRIVE Conciergeとビデオ会議用のProject Maxineという、Omniverse Avatarを使った様々な事例を紹介した。

Project Tokkioの最初のデモンストレーションでは、フアン氏は、彼そっくりのおもちゃとして作られたアバターと同僚とのリアルタイムでの会話を披露し、生物学や気候科学といったトピックについて話した。Project Tokkioの次のデモンストレーションでは、フアン氏はレストラン風の建物にいる、カスタマーサービス担当のアバターを紹介。このアバターは、2人の客を見て、彼らと会話し、ベジタブルバーガー、フライドポテトおよび飲み物の注文を理解した。このデモンストレーションでは、NVIDIA AIソフトウェアと、現在世界最大のカスタマイズ可能な言語モデルとなっている、NVIDIAの言語生成モデル、Megatron-Turing NLG 530Bが使用された。

AIプラットフォーム DRIVE Conciergeのデモでは、中央のダッシュボード画面に表示されたデジタルアシスタントが、ドライバが時間通りに目的地に到着するための最適な走行モードの選択をサポートし、車の航続距離が100マイル以下になったらリマインダーを設定するというリクエストに従う。

さらにフアン氏は、仮想コラボレーションおよびコンテンツ制作用アプリケーションに最先端の動画と音声機能をもたらすことのできる、Project Maxineを紹介した。英語話者が騒々しいカフェでビデオ通話をしているところが映し出されているが、彼女は背景の雑音に関係なく、音声をはっきりと聞き取れているという。彼女が話すと、彼女の言葉は、リアルタイムで書き写され、さらに彼女と同じ声とイントネーションでドイツ語、フランス語、スペイン語に翻訳されている。

■Omniverse Avatarの主な要素

Omniverse Avatarは、音声AI、コンピューター ビジョン、自然言語理解、レコメンデーション エンジン、フェイシャル アニメーションおよびグラフィックスの要素を使用している。それらの要素は、以下のようなテクノロジによって実現している。

音声認識は、複数言語の音声を認識するソフトウェア開発キットであるNVIDIA Rivaがベースとなっている。Rivaは、テキストから音声に変換する機能を使って、人間と同じような会話応対を生成するためにも使用されている。

自然言語理解は、人間の言語を認識、理解および生成することのできる、NVIDIAのMegatron 530B Large Language Modelがベースとなっている。Megatron 530Bは、ほとんど、あるいは全く学習することなく、複雑な文の作成、幅広い分野の質問への回答、長くて複雑なストーリーの要約、他の言語への翻訳、特別に学習されていない多くの分野への対応が可能な、事前に学習されたモデルだ。

レコメンデーション エンジンでは、大量のデータを処理して、賢明な提案をするのを可能にするディープラーニング レコメンデーション システムを構築するためのフレームワークである、NVIDIA Merlinが使用されている。

認知機能では、ビデオ分析用のコンピューター ビジョン フレームワークである、NVIDIA Metropolisが活用されている。

アバターのアニメーションでは、2Dおよび3DのAIによるフェイシャル アニメーションとレンダリング技術である、NVIDIA Video2FaceとAudio2Faceが使用されている。

これらの技術はアプリケーションに組み込まれ、NVIDIA Unified Compute Frameworkを使ってリアルタイムで処理される。拡張性に優れ、カスタマイズ可能なマイクロサービスとしてパッケージされた、これらのスキルは、NVIDIA Fleet Commandによって、複数の場所にわたって、安全に導入、管理および集約することができるとのことだ。

Article Tags

Special Features

連載特集
See More