パナソニックホールディングス、確率的生成モデルと自己教師あり学習を統合し画像の不確実性を推定できる画像認識AIを開発

2023/9/22

Today's PICK UP

パナソニックホールディングス株式会社は、「確率的生成モデル」と「自己教師あり学習」の関係性を解き明かし、画像の特徴をAI自身が自動で理解する画像認識AIを開発したと発表した。

AIは大規模なデータセットを用いた学習を通じて、画像中に映る物体の特徴を把握する。高精度なモデル開発には、大量のデータセットに対して人によるラベリング作業が必要であることが課題視されており、近年は大量のラベルなしデータからAI自身に学習させる手法の開発が進み、特にGPTに代表される自然言語分野で先行して大きな成果を挙げつつある。一方、大規模なデータセットには、人が見ても判断が難しい「不確実性の高いデータ（ノイズ、ボケ、光の反射などにより判断が困難なもの）」がしばしば存在し、AIの学習を阻む。この不確実性がAIの品質を下げることから、近年解決すべき課題として注目を集めているという。本手法は、従来難しかった画像の不確実性を考慮した学習を実現するため、「確率的生成モデル」と「自己教師あり学習」を理論的に統合。また、実験により、これまで「自己教師あり学習」で難しかった画像中の特徴の不確実性（AIにとって学習が難しい画像である度合い）を推定できることを実証したとのことだ。

認識、検出、セグメンテーションなどを行う高精度な画像系AIモデルの開発には、大量のデータ収集とアノテーションによる学習データの準備に、多大な時間とコストを要することがAIの社会実装を進める上で課題となっているという。そこで、事前に大量のラベルなしデータからAI自らに生成させた疑似的な正解ラベルを使って、画像の特徴を学習し、その後、タスク毎にわずかなデータで所望のタスクを高精度に実現させる「自己教師あり学習」が、アノテーションの負荷を大幅に下げる方法として、近年盛んに開発されているとのことだ。代表的な手法としてはSimSiam、SimCLR、DINOが知られているという。大量のラベルなしデータから画像に映し出された特徴を事前学習するにあたり、様々なタスクに応用できる汎用的な特徴表現を獲得するには、同じ物体に対して、一部のみ写っている場合・光の具合が異なる場合・画像が回転している場合など、様々な異なる見え方に対しても、同じ物体であるとAI自身が判定できるよう学習する必要がある。SimSiamなどの「自己教師あり学習」の手法では、それぞれの画像に対して回転・切り出し・色変換などの画像拡張を自動的に行い、AI目線での距離（特徴空間上での距離）が近くなるように学習することで、見え方が異なったとしても、同じ物体として認識できるよう事前に学習する。このAIをベースに用いることで、少量のラベル付けで様々なタスクを高精度に実現できることが知られているという。しかし、従来の「自己教師あり学習」は同じ画像の距離が近づくように学習する際に、各画像そのものの性質を余り考慮していないという。何が写っているかわかりにくい画像（不確実性が高い）も、何が写っているか明確に分かりやすい画像（不確実性が低い）も同じように扱うため、不確実性の高い画像により、事前学習がうまく進まなかったり、モデルの精度を下げてしまう課題があるとのことだ。

この課題に対し、同社は、確率統計的なアプローチでの解決を試みた。不確実性の表現に優れたAI技術としてはVariational Auto Encoderなどに代表される確率的生成モデルが知られているという。本研究では、この確率的生成モデルの数式から、従来の「自己教師あり学習」で用いられる数式を導出できることを証明し、二つの異なるAI技術の関係を理論的に明らかにした。さらに、この知見を応用し、データセット中の画像の不確実性を推定できる手法を開発した。ImageNet100（ベンチマークデータセット）に対する評価実験で、画像の不確実性を本手法が推定できたことを定性的に実証するとともに、本手法で不確実性が高いと推定した画像を画像分類にかけた際、正答率が低くなる傾向がある、すなわち不確実性がAIの認識率に影響するという定量的な知見を得たとのことだ。これまで、AIの学習データには質の高いデータが大量に必要であることが常識となっていたが、今回得られた知見により、学習データの質を不確実性として扱い、推定した不確実性をAIモデルの学習アルゴリズムに織り込むことで、データの質というハードルを乗り越えられるAIを実現できる可能性を示すことができたとのことだ。