チューリング、日本初の自動運転向けVLA(Vision-Language-Action)モデルデータセット「CoVLA Dataset」を発表、WACV2025に論文が採択

新たに自動運転マルチモーダルモデルのベースとなる日本語LLMも公開、国内最高レベルの性能を達成

完全自動運転技術の開発に取り組むTuring株式会社(東京都品川区、代表取締役:山本一成、以下「Turing」)は、日本初の自動運転向けVLAモデルデータセット「CoVLA(コブラ)Dataset」を開発し、一部を公開した。そして、コンピュータービジョンの主要な国際会議WACV 2025(IEEE/CVF Winter Conference on Applications of Computer Vision 2025)において、同データセットの研究論文「CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving」(以下、本論文)が採択された。
本成果は経済産業省/NEDOの生成AI開発支援「GENIAC」の開発の一環として実施され、上記のほかにも、自動運転マルチモーダルモデルのベースとなる日本語LLM「Llama-3-heron-brain-70B,8B」や、高速なマルチモーダル分散学習ライブラリ「vlm-recipes」、大規模な視覚-言語データセット「Wikipedia-Vision-JA」、「Cauldron-JA」など複数成果を公開している。
※自社調べ、2024年9月調査、日本国内における自動運転向けVLAモデルとして

自動運転向けVLAモデルデータセット「CoVLA Dataset」 / チューリング株式会社

■背景

複雑かつ予期しない状況下においても適切に対応可能なシステムを構築する必要がある完全自動運転では、画像(視覚)やテキスト(言語)など複数種類のデータを用いて高度な判断を行うことができるマルチモーダル大規模言語モデル(以下、MLLMs)が重要な技術となる。しかし、同領域においてはAI学習用にアノテーションされた大規模なデータセットが不足していることがボトルネックとなり、E2E自動運転システムの経路計画における応用研究がほとんど見られないのが現状である。

■CoVLA Datasetの概要

CoVLA(Comprehensive Vision-Language-Action)Datasetは、上記課題を解決するためにTuringが開発し、このたび一部を公開した日本初の自動運転向けVLAモデルデータセットである。車載センサーデータを含む80時間以上の運転データで構成されており、データの規模とアノテーションの多様さにおいて国外の既存データセットを上回っている。データ処理からキャプション生成まで自動化したスケーラブルな手法で構築しており、このデータセットを用いて開発したVLAモデル「CoVLA-Agent」は、画像から得た運転環境を自然言語で詳細に説明し、適切な経路計画を生成することが可能である。
CoVLA-Dataset:https://huggingface.co/datasets/turing-motors/CoVLA-Dataset-Mini
CoVLA概要図

CoVLA概要図

出典元:プレスリリース

■今後について

CoVLA Datasetを活用したMLLMsが様々な運転シナリオにおいてどの程度の能力を発揮するかを検証した結果、同モデルが一貫性のある言語生成と行動出力において優れた性能を示し、視覚・言語・行動データを用いたVLAモデルが自動運転分野において効果的なアプローチであることを確認している。今後は、学術機関向けにCoVLA Datasetの全データセットを公開することも視野に入れ、より安全かつ信頼性の高い自動運転システムの実現を目指す。本論文は、arXivにて公開している:https://arxiv.org/abs/2408.10845

Special Features

連載特集
See More