日本の自動運転を加速する！Heron-NVILA-Lite-15Bの全貌

新たな自動運転技術の幕開け

チューリング株式会社は、最新の日本語視覚-言語モデル「Heron-NVILA-Lite-15B」を発表しました。これは、150億パラメータという大規模なモデルであり、特に自動運転技術の進展に寄与することが期待されています。この技術は、日本語の文脈や背景を理解し、リアルタイムでの状況把握が可能な高性能モデルです。

インパクトを持つ日本語VLM

「Heron-NVILA-Lite-15B」は日本語圏に特化したオープンソースの視覚-言語モデルとして、様々なベンチマークテストで高得点を達成しています。たとえば、画像とテキストの応答に関する「Heron-Bench」ではスコア73.5を記録し、他の同規模モデルと比較してもその性能は抜群です。この技術により、日本語の情報をより適切に処理し、視覚的な理解を深めることが可能です。

具体的な技術的背景

自動運転システムには、視覚データや言語データを同時に処理する能力が求められます。しかし、これまで日本語で高品質な学習データを利用したマルチモーダルモデルの開発は非常に限られていました。チューリングは、経済産業省とNEDOが支援する「GENIAC」プログラムのもとでこの課題に挑戦し、多様なデータセットを構築しました。

MOMIJIとSTRIDE-QAデータセット

「MOMIJI」は、インターリーブ形式で編成された日本語視覚-言語モデルにおける世界最大のデータセットで、2億4900万枚の画像とテキスト情報が収録されています。一方、「STRIDE-QA」は東京都内での実運転データをもとにした三次元自律移動データセットで、非常に詳細な交通シーンデータが含まれています。これらのデータは自動運転車両の状況認識に大きな影響を与えるでしょう。

Heron Appでの実用化

また、チューリングは「Heron App for iOS」として、iPhone向けの画像解析AIアプリを開発中です。20億パラメータに軽量化されたこのアプリは、オフラインでの高速推論が可能であり、実用性が期待されています。これにより、ユーザーは手元のスマートフォンで高度な画像解析を行うことができます。