
Unity、AIトレーニングの時間と予算を大幅に削減する「合成データセット」を提供開始
2021/4/21
マルチプラットフォーム向け統合開発環境「Unity」を提供するユニティ・テクノロジーズ・ジャパン株式会社は、親会社であるUnityがコンピュータビジョンアプリケーションの開発コストを削減し、製造業、小売業、セキュリティ業界向けのAIをより迅速にトレーニングすることを目的とした「Unity Computer Vision Datasets」を発表した。コンピュータビジョンのソリューション提供者は、厳格なプライバシーおよび規制基準を維持しながら、AIトレーニングの要求に合わせてオーダーメイドのデータセットを購入することができる。
Unityの人工知能・機械学習部門のSVPであるダニー・ラング博士(Dr. Danny Lange)は次のように述べている。「検証されたプライバシールールを反映し、実世界のデータを正確に反映した合成版のデータセットを作成することで、私達はこれらの画期的なデータセットをより多くのイノベーターの手に渡すことができました。。基本的にこれらのデータセットは、企業がまだ経験していないシナリオの計画やシミュレートに役立ち、現実世界で時間を費やして入手できたものと同等のユーザーデータを大幅に増やせます。その結果、開発者が新しいアプリケーションを生み出し、レジなしの食料品店のような、よりスマートな室内環境を私達は確認・体験できるようになりました」
Unityの「Unity Computer Vision Datasets」は、「ドメインランダム化」(domain randomization)と呼ばれる技術を用いて、アプリケーションの品質向上と偏りの制御を目的とした多様なデータセットを作成する。このプロセスでは、対象となるオブジェクトの位置や向きの順列が出力される。これには、照明やカメラアングルのバリエーションや、Unity環境で可能な無数の設定が含まれる。また、Unityの合成データセットは、インターネットから削除された実在の人物や場所の画像や、労働集約的な作業で現実世界から手動でキャプチャされた画像を含む工程から生じる、プライバシーの落とし穴や制御不能なバイアスを回避する。
実世界のデータでは、アノテーションの価格はアノテーションの種類が複雑になるほど高くなる。Unityでは、2Dおよび3Dバウンディングボックス、クラスセグメンテーション、インスタンスセグメンテーションなどの業界標準のラベルを、シンプルなものから複雑なものまで、どのラベルタイプでも同じ価格で提供する。購入出来るデータセットは、より多くの合成画像を必要とする場合には、それに比例して1画像あたりの価格が下がる仕組みになっている。
また、ダニー・ラング博士(Dr. Danny Lange)は次のように述べている。「合成データは、手作業で収集されラベル付けされた実世界のデータの多くの欠点を克服するため、機械学習モデルのトレーニングに革命をもたらしています。可能性を追求し、クリエイターが正しい判断を下すために必要なデータを手頃な価格で提供することは、業界を問わずUnityの原動力となっています。そのため、我々のチームは作成されたデータセットがお客様のニーズに合った基準を満たすよう支援して参ります」