新たな自動運転技術の幕開け
チューリング株式会社は、最新の日本語視覚-言語モデル「Heron-NVILA-Lite-15B」を発表しました。これは、150億パラメータという大規模なモデルであり、特に自動運転技術の進展に寄与することが期待されています。この技術は、日本語の文脈や背景を理解し、リアルタイムでの状況把握が可能な高性能モデルです。
インパクトを持つ日本語VLM
「Heron-NVILA-Lite-15B」は日本語圏に特化したオープンソースの視覚-言語モデルとして、様々なベンチマークテストで高得点を達成しています。たとえば、画像とテキストの応答に関する「Heron-Bench」ではスコア73.5を記録し、他の同規模モデルと比較してもその性能は抜群です。この技術により、日本語の情報をより適切に処理し、視覚的な理解を深めることが可能です。
具体的な技術的背景
自動運転システムには、視覚データや言語データを同時に処理する能力が求められます。しかし、これまで日本語で高品質な学習データを利用したマルチモーダルモデルの開発は非常に限られていました。チューリングは、経済産業省とNEDOが支援する「GENIAC」プログラムのもとでこの課題に挑戦し、多様なデータセットを構築しました。
MOMIJIとSTRIDE-QAデータセット
「MOMIJI」は、インターリーブ形式で編成された日本語視覚-言語モデルにおける世界最大のデータセットで、2億4900万枚の画像とテキスト情報が収録されています。一方、「STRIDE-QA」は東京都内での実運転データをもとにした三次元自律移動データセットで、非常に詳細な交通シーンデータが含まれています。これらのデータは自動運転車両の状況認識に大きな影響を与えるでしょう。
Heron Appでの実用化
また、チューリングは「Heron App for iOS」として、iPhone向けの画像解析AIアプリを開発中です。20億パラメータに軽量化されたこのアプリは、オフラインでの高速推論が可能であり、実用性が期待されています。これにより、ユーザーは手元のスマートフォンで高度な画像解析を行うことができます。
未来への展望
チューリングは今後も、軽量で高速なマルチモーダル言語モデルと自律移動技術の研究を続けていく方針です。自動運転が更に普及するためには、これらの技術開発が不可欠であり、チューリングの成果がその実現に向けて大きな一歩を踏み出すことが期待されています。
企業情報
チューリングは、東京都品川区で活動する企業で、完璧な自動運転技術の実現を目指しています。新しい技術の開発に加え、定期的なオープンオフィスやテックトーク等も実施しているため、興味がある方はぜひ参加してみてください。
まとめ
日本の自動運転技術に革命をもたらすとされる「Heron-NVILA-Lite-15B」。その誕生を機に、未来のモビリティがどのように変わっていくのか、今後の展開に注目です。