Research Project

群ロボット協調輸送のための分散強化学習

群ロボットによる協調輸送は複数の荷物を同時に運べることや、重いものも協調して運べるため、システムとして実現できれば効率が良いと考えられます。群ロボットによる協調輸送では、相手と観測情報を共有するために無線通信を用いるのが一般的です。しかし、群ロボットが密に通信すると、無線通信の帯域幅が圧迫され、通信遅れなどによって制御性能が低下する可能性があります。この問題に対して、群ロボットの通信戦略と制御戦略を同時に最適化する深層強化学習の枠組み[ICRA2021]を提案しました。また、ロボットの故障やロボットの追加による台数変化に対応するため、近傍ロボットの観測情報を含む局所情報から荷物に作用する合力などの大域情報を復元する合意に基づく分散強化学習[RAS2023]を提案し、3台から6台の実ロボットによる協調輸送実験で手法の有効性を確認しました。

群ロボット協調輸送におけるSim2Realギャップ低減のための深層強化学習

群ロボットのAI技術である「マルチエージェント強化学習」は、学習時に試行錯誤による膨大な数の経験データを必要とするため、シミュレータで方策を学習し、実機に適用するのが一般的です。しかし、現行技術はシミュレータと実環境のセンサーの違いによるSim2Realギャップによって、実環境で十分な性能を発揮できていません。実世界の協調輸送タスクに適用するため、Sim2Realギャップに頑健なマルチエージェント強化学習の枠組み[SII2025]を提案しました。まず、実環境での観測の不確かさに対して頑健化するため、観測値を連続値から離散値に変換し、離散値に基づく方策モデルを採用しました。しかし、離散値のみで方策を学習すると、各状態における価値を適切に評価できず、学習性能が低下します。そこで、学習時は連続値と離散値を用いて学習し、実行時は離散値のみで方策を実行する非対称型の学習モデルを採用しました。2台のHSRロボットを用いた実機実験で、提案法が現行技術と比べて高い輸送性能を達成できることを確認しました。

自然言語指示に基づくマルチロボット制御のための深層強化学習

近年の大規模言語モデルの進展により、自然言語による指示に従ってタスクを遂行するマルチロボットシステムの実現が可能になりつつあります。しかし、分散型のマルチロボットシステムにおける効率的な協調の実現には、以下の2つの課題があります：

指示とタスク要求との間の不整合
曖昧な指示を各ロボットが個別に解釈することによる協調性の低下

これらの課題に対処するために、我々はInstruction-Conditioned Coordinator (ICCO) [IROS2025] を提案しました。ICCOは自然言語指示に基づくマルチロボットの協調タスクの遂行を実現するためのマルチエージェント強化学習の枠組みで、コーディネータエージェントと複数のローカルエージェントから構成されます。コーディネータは、自然言語による指示と環境の観測情報を統合し、タスクに整合、かつ一貫性のある指示を生成します。これにより、タスク整合性と行動の一貫性が担保されます。コーディネータとローカルエージェントは、タスク効率と指示の遵守を両立する報酬関数に基づいて学習されます。さらに、Consistency Enhancement Term (一貫性強化項)を訓練の目的関数に追加することで、指示とロボットの行動との間の相互情報量を最大化し、協調性をさらに向上させています。シミュレーションおよびロボット実験により、ICCOが自然言語指示に基づくマルチロボットの協調タスクの遂行において有効であることを確認しました。（プロジェクトページ）

多様な飛行物体のキャッチングのための落下点予測

本研究では、多様な飛行物体のキャッチングのための落下点予測に取り組みました。飛行物体は回転や揚力などの影響により複雑な空力を受けますが，従来研究で公開されている軌道データセットは放物運動に近いものに限定されていました。そこで本研究では、複雑な空力を受ける物体を含む20種類・8,000軌道からなる実環境のデータセットを新たに構築しました。さらに、限られた初期軌道のみで物体ごとの空力の違いを特徴空間で判別しつつ落下点を推定する Discriminative Impact Point Predictor (DIPP) を提案し、シミュレーションおよび四足歩行ロボットによる実機実験で、従来手法より高い落下点の予測精度と成功率を達成できました。（プロジェクトページ）

視覚と言語に基づくマルチロボット協調搬送のための深層強化学習

本研究では、各ロボットが自身のカメラ画像から自然言語指示を解釈する視覚・言語誘導型マルチロボット協調搬送に取り組みました。この分散型の設定では、視点差や言語の曖昧さによりロボット間で対象物や目標領域の解釈が一致しない知覚の不整合が発生し、協調行動が崩れるという問題が生じます。この課題に対してConsistent Leader-Follower（CoLF）を提案しました。CoLFは、非対称な方策設計によってリーダーとフォロワーの役割分化を誘導し、さらに相互情報量に基づく目的関数によりフォロワーがリーダーの行動を予測することを促進します。各ロボットの方策は集中学習・分散実行の枠組みで最適化されます。2台の四足ロボットを用いた協調搬送シミュレーションおよび実機実験で、提案手法が知覚の不整合が生じるいくつかの搬送シナリオで提案手法の有効性を検証しました。（プロジェクトページ）

Page updated

Google Sites

Report abuse