研究紹介

- Introduction of our Research -

研究室で実施された研究内容を紹介します。進行中と終了済みの研究を区別していません。何か質問がございましたら、メール等で教員にお問い合わせください。

ロボットによる複雑作業の自動化

モデルベース強化学習による研削作業

模倣学習による長期作業の自動化

人教示者の動作特徴を考慮したインタラクティブ模倣学習

深層強化学習による衣類操作

マルチロボットの分散・協調戦略学習

Sim-to-realロボット学習

適応的人支援ロボット

人とロボットの協調作業学習

CVT付きエナジーハーベスタ型装具の開発

ロボット触覚・触知覚

振動印加によるロボット触覚センシングの拡張 

触覚探索による柔軟素材で覆われた物体の形状推定

実世界ロボットラーニングへの挑戦

強化学習による化学プラントの自動操業横河電機/横河デジタル共同)



ごみ焼却プラント自動運転 (日立造船共同)

廃棄物焼却プラントは、燃焼を安定させるために専門家のオペレーターがリアルタイムのビデオフィードを監視する複雑なシステムです。リアルタイムの予測は重要ですが、コスト効率の良いシステムのダイナミクスを学習することは難しい課題です。この論文では、リアルタイムでのデータ駆動型フレームワークを提案し、専門家の知識を学習中に取り入れることで、ビデオからの予測を実現します。実験結果では、提案手法が物理的なプロセスを的確に捉え、計算時間を大幅に短縮し、リアルタイムでの適用が可能であることを示しています。 

2.  ゴミクレーンの自動運転化

この研究の目的は、廃棄物焼却プラントの廃棄物クレーンの制御ポリシーを自律的なトライアンドエラーの方法で最適化するフレームワークを開発することです。廃棄物クレーンは大規模な機械システムであり、動作が遅く、タスクを実行するのに数分かかるため、タスクを実行してデータサンプルを得ることは非常にコストがかかります。さらに、異なる硬度や湿度を持つさまざまな材料で構成された可燃性廃棄物の状態を観察できるセンサーが存在しないため、廃棄物の不均質性はクレーンのタスクパフォーマンスに予測不可能な変動を引き起こします。これらの問題に対処するために、我々はパラメータ化された制御ポリシーのポリシーパラメータをMulti-Task Robust Bayesian Optimization (MTRBO)で最適化するフレームワークを提案します。我々のフレームワークは、(1)ゴミの不均質性に対するアウトライアの耐性と、(2)以前に解決されたタスクからのサンプルの再利用によるサンプル効率の向上という2つの特徴を備えています。我々のフレームワークの効果を調査するために、(i)疑似ゴミを使用したロボット廃棄物クレーンと(ii)廃棄物焼却プラントの実際の廃棄物クレーンを用いたゴミ撒きタスクの実験を行いました。実験結果は、我々のフレームワークが、ゴミの不均質性の影響を受けた場合でも、データ量を大幅に削減してもゴミクレーンの制御ポリシーをロバストに最適化したことを示しています。 


強化学習による形式言語に基づくロボットの自律性獲得リコー共同)

この研究では、強化学習(RL)と線形時間論理(LTL)目標を組み合わせることで、ロボットが未知の環境で象徴的なイベントプラン(例えば、工場内の点検作業工程)を実行できるようにします。従来の方法では、イベント検出器が環境の状態を正確に象徴的なイベントにマッピングできると仮定していますが、現実のイベント検出器では不確実性が避けられません。イベント検出器の不確実性により、LTL命令に複数の分岐可能性が生じ、行動決定が混乱します。さらに、タスクの進行に必要な不確実なイベント検出クエリにより、不確実性がさらに増大する可能性があります。これらの問題に対処するために、不確実なイベント検出によるLTL命令の多様性を考慮し、不要なイベント検出クエリによるタスクの失敗を避けるエージェントを学習するRLフレームワーク、Learning Action and Query over Belief LTL(LAQBL)を提案しています。私たちのフレームワークは、信念LTLの埋め込み(グラフニューラルネットワークを使用してLTL命令の複数の分岐可能性を学習する)、行動ポリシー、およびイベント検出器へのクエリを決定するクエリポリシーを同時に学習します。2次元グリッドワールドと画像入力ロボット検査環境でのシミュレーションは、私たちの方法が不確実なイベント検出器でもLTL命令に従う行動を成功裏に学習することを示しています。 

ヒューマンフィードバックによるユーザ嗜好の天ぷら自動盛付け学習(がんこフードサービス共同)

強化学習による小型船舶の自動運転化(古野電気共同)

本研究では、実物大のボートを自律的に制御するという難しい課題に取り組み、強化学習システムを開発しました。海洋環境における大きな不確実性と高コストの課題に対処するために、モデルベースの強化学習とモデル予測制御(MPC)を組み合わせた新しいガウス過程(GP)ベースの強化学習アプローチを提案しました。このアプローチは、確率的モデル予測制御(SPMPC)として知られ、ガウス過程のダイナミクスモデルを反復的に学習し、それを使用してMPCの閉ループ内で制御信号を効率的に更新します。SPMPCを使用したシステムを構築し、自動操縦タスクを効率的に学習しました。実際のボート走行データを用いたシミュレーションにより、提案システムが、シングルエンジンとGPS、速度、方向、風を計測するセンサーを搭載した実物大のボートを、人間のデモンストレーションなしで自動操縦タスクを学習することに成功したことが示されました。 

乱雑環境下における物体の能動探索ロボット(東芝共同)

この論文では、混雑した環境での遮蔽された物体の探索に対する、ガウス過程モデルに基づく確率的アクティブラーニングアプローチを提案しています。遮蔽が多いため、エージェントは作業領域内の物体を観察する際に、それらを系統的に再配置することで不確実性を徐々に減らす必要があります。この研究では、ガウス過程を使用して、システムのダイナミクスと観測関数の両方の不確実性を捉えます。ロボットの操作は相互情報量によって最適化されます。これは、二つのモデルの予測される不確実性に基づいて、1つの物体を移動して新しい物体を探索する可能性を自然に示します。アクティブラーニングフレームワークは、センサー観測に基づいて状態信念を更新します。提案手法は、シミュレーションロボットタスクで検証されました。結果は、ランダムなアクションによって生成されたサンプルであっても、提案手法が知能的な物体探索行動を学習し、その予測される状態が繰り返し地面の真実に収束することを示しています。 

強化学習の理論・アルゴリズム

方策改善性を高めた強化学習

この論文では、慎重なポリシープログラミング(CPP)という新しい価値ベースの強化学習(RL)アルゴリズムを提案します。このアルゴリズムは、学習中にポリシーの改善を単調に確保できます。エントロピー正則化RLの性質に基づき、ポリシーの改善の新しい下限値を導出します。この下限値は、期待されるポリシーアドバンテージ関数の推定のみを必要とし、ポリシーの振動を軽減するためのポリシーアップデートの度合いを調整する基準として利用されます。CPPは、この下限値を利用してポリシーアップデートの度合いを調整し、ポリシーの振動を緩和します。他の類似のアルゴリズムとは異なり、CPPは高次元の制御問題でよりスケーリングしやすくする新しい補間スキームも提案します。提案されたアルゴリズムは、教育的な古典的な制御問題や高次元のAtariゲームの両方で、パフォーマンスと安定性のトレードオフを示すことができることを示します。

多峰ガウス過程方策探索