Vision-Language Action(VLA)モデルや世界基盤モデルといった基盤モデルの進化が著しい.背景には,大規模言語モデル(LLM)の技術革新による知見の蓄積があげられる.LLMにおける大規模に収集されたデータの扱い方やモデルのアーキテクチャなどの利活用により,ロボティクスや自動運転といったPhysical AIと呼ばれる技術がより高性能かつ汎用的になる.実際,環境変化への適応力やタスク汎用性が向上し,いくつかのベンチマークで従来技術を上回る研究成果も出てきており,大いに期待できる.
一方で,実空間と結びつきが強いPhysical AIはLLMが主に扱う言語・画像領域には存在しない特有の課題が多く,依然として実用化には至りきれていない.例えば,データ収集では時空間方向に知覚情報や行動情報の網羅性・緻密性の改善が求められ,システムとして実装する際はリアルタイム性や巧緻性,安全性が求められる.さらに,これらの課題解決の知見は各研究組織内で閉じる傾向が(特に海外を中心に)強く,実用化の律速となってしまっている.
そこで,本セッションでは,
VLAモデルや世界基盤モデルを用いた知覚・言語・行動統合
大規模行動データの獲得・活用
シミュレーション・実環境の橋渡し
ロボティクスや自動運転といった産業・社会応用
などを中心に,基盤モデルが普及した際のPhysical AIのあり方や知見の共有および議論を行い,Physical AIの実用化を加速させることを目指す.
河野 慎
東京大学/ZEN大学
松嶋 達也
東京大学/AIRoA
河原塚 健人
東京大学
太田 佳
AIRoA
尾形 哲也
早稲田大学/AIRoA
本OSについて、詳しくは kawano[at]weblab.t.u-tokyo.ac.jpまでお問い合わせください。
© 2026–2027 JSAI. All rights reserved.