基盤モデルの実ロボット応用
RSJ2023 オーガナイズドセッション
本オーガナイズドセッションのねらい
本オーガナイズドセッションのねらい
多様で大規模なデータセットを用いて訓練された基盤モデルは, 視覚や聴覚, 言語の間の関係性を適切に捉えることのできる統一的なモデルとして, 物体認識や音声認識のみならず, 対話やQ&A, 画像生成などで急速に活用されている.本セッションでは, 大規模言語モデル, 大規模視覚-言語モデルに代表される事前学習済みの基盤モデルを活用し, 知能的に振る舞うロボットについて議論する.
例えば,以下のような基盤モデルを実ロボットに応用した研究を取り扱う(必ずしもこれらの研究に限られない)
大規模言語モデル
ChatGPT, GPT-3, T5, PaLM, Chinchilla, Gopher, …
大規模視覚-言語モデル
CLIP, GLIP, OFA, X-CLIP, Flamingo, Detic, …
大規模オーディオ言語モデル
AudioLM, AudioCLIP, HuBERT, Whisper, …
画像生成モデル/強化学習
DALL-E2, Imagen, Stable Diffusion, Gato, RT-1, BC-Z, …
応用に関するもの
CLIP-Fields, Code as Policies, SayCan, LM-NAV, ProgPrompt, Socratic Models, VIMA