パナソニック ホールディングス、階層的な画像認識を実現するマルチモーダル基盤モデルを開発

パナソニック ホールディングス株式会社は、大規模言語モデルの事前知識を活用することで、任意のテキスト入力に応じたセグメンテーション(画像中の物体を見つけ出し、画素単位で映っているものを識別すること)タスクを遂行できる画像認識向けマルチモーダル基盤モデルをカリフォルニア大学バークレー校と共同開発したと発表した。

近年、画像認識AIの構築にかかる時間やコストの削減を見込める手法として、大規模言語モデルを応用した研究が注目されているという。大規模言語モデルの事前知識を画像に取り込むにあたって、実際は異なる粒度の階層的な言語が同一の物体領域に存在する場合、基本的には、階層的な関係性は無視され、領域と言語が1対1で対応する形で扱われてきたとのことだ。同社は、これまで無視されてきた「階層的な関係性」がAIによる高度な画像理解に必要であることに着目した。異なる粒度の階層的な表現を学習する技術を開発し、従来、階層に応じて複数のモデルを用意する必要があったセグメンテーションや画像認識を、一つのモデルで実現できるようになった。これにより、車載センサにおける危険検知や、ロボットにおける操作対象の認識、ドローンの地形分析、医療画像などの階層的な画像理解が必要とされる様々な場面で、現場でのアノテーションの負担削減が期待できるとのことだ。
出典元:プレスリリース

Article Tags

カテゴリ

Special Features

連載特集
See More