研究紹介

研削によるオブジェクト形状加工は、回転する研削ベルトが材料を取り除く重要な産業プロセスです。オブジェクト形状の変化モデルは、ロボットによる自動化を実現するために不可欠です。しかし、プロセス条件に依存するこのような複雑なモデルを学習することは難しいです。なぜなら、大量のデータが必要であり、また、取り除くプロセスの不可逆性からデータ収集が高コストになるからです。本論文では、ロボットの研削に対する切削表面を認識するモデルベースの強化学習（MBRL）手法を提案しています。我々の手法は、切削表面を考慮したモデルをオブジェクトの形状変化モデルとして使用します。このモデルは、幾何学的な切削モデルと切削表面の偏差モデルから構成されます。このモデルは、ロボットの行動が工具によって作られた切削表面を指定できるという仮定に基づいています。さらに、研削抵抗理論によれば、切削表面の偏差モデルは生の形状情報を必要とせず、直接形状をマッピングする単純な形状変化モデルよりも次元が小さく、学習が容易です。シミュレーションと実際のロボット実験による評価と比較を通じて、我々のMBRL手法が研削によるオブジェクト形状加工の学習において高いデータ効率性を実現し、また、学習データと異なる初期形状と目標形状に対する汎化能力を提供できることを確認しました。
参考文献

Takumi Hachimine, Jun Morimoto, and Takamitsu Matsubara: Learning to Shape by Grinding: Cutting-surface-aware Model-based Reinforcement Learning, IEEE Robotics and Automation Letters, 8(10), pp. 6325-6242, 2023, [IEEE, HP, arXiv, YouTube]

模倣学習による長期作業の自動化

部分自動化（PA）に代表されるインテリジェントサポートシステムは、産業機械や高度な自動車に導入され、長時間の人間の操作負担を軽減するために使用されています。PAでは、オペレーターは手動操作（アクションの提供）や自動/手動モードの切り替え（モード切り替え）などを行います。PAにより手動操作の合計時間が削減されるため、これらのアクションとモード切り替え操作は高いサンプル効率で模倣学習によって再現できます。このため、本論文では、部分自動化下での乱用注入（DIPA）を新しい模倣学習フレームワークとして提案します。DIPAでは、各状態でモードとアクション（手動モードでのアクション）が観測可能であると仮定し、それらを使用してアクションとモード切り替えポリシーの両方を学習します。また、PA下で共変量シフトを最小化するために、オペレーターのアクションに乱用を注入してそのレベルを最適化することで、上記の学習をロバスト化します。我々の手法の有効性を、2つのシミュレーションと実際のロボット環境での長期タスクに対して実験的に検証し、従来の手法を上回り、デモの負担を軽減できることを確認しました。
参考文献

Hirotaka Tahara, Hikaru Sasaki, Hanbit Oh, Edgar Anarossi, Takamitsu Matsubara: Disturbance Injection under Partial Automation: Robust Imitation Learning for Long-horizon Tasks, IEEE Robotics and Automation Letters, 8(5), pp. 2724-2731 (2023), [IEEE, arXiv]
Hirotaka Tahara, Hikaru Sasaki, Hanbit Oh, Brendan Michael, Takamitsu Matsubara: Disturbance-Injected Robust Imitation Learning with Task Achievement, IEEE International Conference on Robotics and Automation (ICRA2022), pp.2466-2472, 2022 arXiv youtube

人教示者の動作特徴を考慮したインタラクティブ模倣学習

インタラクティブ模倣学習（IIL）は、ロボットがタスクを学習する際に人間のデモンストレーションを利用する方法です。しかし、特定のタスクでは、衝突リスクが大きく、ロボットは衝突を回避する必要があります。そこで、本研究では、人間のデモンストレーションにおける精度を考慮した新しい方法、"デモンストレーター知覚精度を考慮したインタラクティブ模倣学習"の枠組みを提案しました。人間のデモンストレーションで観察される速度と精度のトレードオフを利用して、ロボットが高精度の状態で衝突を回避するために人間に制御を譲ったり、頑健化のために印加するノイズのレベルを低下させることを可能にします。この手法は、環境の正確なモデルを必要とせずに、安全性を向上させ、効率性を確保します。シミュレーションと実際のロボット実験により、その効果が示されました。
参考文献

Hanbit Oh, Hikaru Sasaki, Brendan Michael, Takamitsu Matsubara: Bayesian Disturbance Injection: Robust Imitation Learning of Flexible Policies for Robot Manipulation, Neural Networks, 158, pp.42-58, 2023, [Link]
Hanbit Oh and Takamitsu Matsubara: Leveraging Demonstrator-Perceived Precision for Safe Interactive Imitation Learning of Clearance-Limited Tasks, IEEE Robotics and Automation Letters, 2024, [IEEE, HP, arXiv, YouTube]

深層強化学習による衣類操作

深層強化学習は、強化学習の枠組みに深層学習を組み合わせた手法です。つまり、エージェントは状態を入力として受け取り、深層ニューラルネットワークを使用して行動を選択します。報酬は、行動の結果として得られ、ニューラルネットワークは報酬を最大化するように学習します。我々の研究室では、現実のロボットが収集可能な少数のサンプルデータから、効率よく行動を学習する手法を開発しました。また、衣類操作をはじめ、複雑なタスクの学習に成功しました。
参考文献

Yoshihisa Tsurumine, Yunduan Cui, Eiji Uchibe, and Takamitsu Matsubara. “Deep reinforcement learning with smooth policy update: Application to robotic cloth manipulation.” Robotics and Autonomous Systems, 112: 72--83, 2019 (IF: 2.928), [Link]
Lingwei Zhu and Takamitsu Matsubara: Cautious Policy Programming: Exploiting KL Regularization for Monotonic Policy Improvement in Reinforcement Learning, Machine Learning Journal, 2023, [Link, arXiv]

マルチロボットの分散・協調戦略学習

マルチエージェント強化学習は、複数のエージェントが環境と相互作用しながら、コミュニケーションや行動戦略を獲得するフレームワークです。我々は、複数のロボットによる分散型協調輸送のためのマルチエージェント強化学習フレームワークが提案しました。提案されたポリシーモデルは、近隣エージェントとの情報を使って一致した力やトルクを推定し、制御と通信のタイミングを決定します。これにより、トレーニング環境と異なるエージェント数でも制御性能と通信の節約がバランスよく保たれます。シミュレーションと実験により、この手法の有効性を最大8台と6台のロボットを用いて確認しました。（豊田中央研究所との共同研究）
参考文献

Kazuki Shibata, Tomohiko Jimbo, Takamitsu Matsubara: Deep Reinforcement Learning of Event-triggered Communication and Consensus-based Control for Distributed Cooperative Transport, Robotics and Autonomous Systems, 159, 104307, 2023, [Link]

Sim-to-realロボット学習

AIロボット分野における"sim-to-real"は、シミュレーション環境から実世界への移行を指します。これは、ロボットがシミュレーション環境で訓練され、その学習された能力が実際の物理環境で実行されることを意味します。我々の研究室では、見かけの違い（visual reality gap）に頑健なモデルベース強化学習手法や、ダイナミクスの違いに頑健な深層強化学習のフレームワークを提案しました。（京都大学/ATRとの共同研究）
参考文献

Tomoya Yamanokuchi, Yuhwan Kwon, Yoshihisa Tsurumine, Eiji Uchibe, Jun Morimoto, and Takamitsu Matsubara: Randomized-to-Canonical Model Predictive Control for Real-World Visual Robotic Manipulation, IEEE Robotics and Automation Letters, 7(4), 8964 - 8971 (2022) (with IROS2022 option), [IEEE, HP, arXiv]
Yuki Kadokawa, Lingwei Zhu, Yoshihisa Tsurumine, Takamitsu Matsubara: Cyclic Policy Distillation: Sample-Efficient Sim-to-Real Reinforcement Learning with Domain Randomization, Robotics and Autonomous Systems, Volume 165, July 2023, 104425[Link, arXiv, YouTube]

適応的人支援ロボット

人とロボットの協調作業学習

人間とロボットが協調することは、様々な分野で重要であり、将来的にさらに多くの可能性を秘めています。人とロボットが協調作業を行う際、人の動作に適応した動作をオンラインで生成する機能が要求されます。本研究では、人の動作の曖昧性を解消するために、環境からの情報も同時に考慮する動作プリミティブの学習手法を開発しました。人とロボットの協調カバーリングタスクに適用し、その有効性を示しました（シドニー工科大と共同研究）
参考文献

Yunduan Cui, James Poon, Jaime Valls Miro, Kimitoshi Yamazaki, Kenji Sugimoto, and Takamitsu Matsubara. “Environment-adaptive interaction primitives through visual context for human–robot motor skill learning.” Autonomous Robots, 43(5), pp.1225-1240, 2019 (IF: 3.634), [Link]

CVT付きエナジーハーベスタ型装具の開発

本研究では、ベルト式無段変速機(CVT)を搭載した膝装着型エナジーハーベスタを試作しました。また、少ない試行回数で個人や運動の種類に最適な変速比を探索するマルチタスクベイズ最適化を用いた変速比の最適化戦略を提案しました。
参考文献
1. Taisuke Kobayashi, Yutaro Ikawa, Takamitsu Matsubara: Sample-efficient Gear-ratio Optimization for Biomechanical Energy Harvester, Journal of Intelligent Robotics and Applications, 6, pp.10-22, 2021, [Springer, arXiv]

ロボット触覚・触知覚

振動印加によるロボット触覚センシングの拡張

本展示では、柔軟素材で構成される生体模倣触覚センサに、外部から機械的な振動を印可し、センサ内部の振動伝搬特性を計測することで、ロボットが無闇に動かず環境情報を優しく取得できる触覚センシングの枠組みを提案しました。また、テクスチャの異なる物体識別や初期滑り検知などの機能を高精度に実現できることを実験を通じて確認しました。
参考文献
1. Naoto Komeno and Takamitsu Matsubara: Tactile Perception based on Injected Vibration in Soft Sensor, IEEE Robotics Autom. Lett. 6(3), 5365-5372 (2021) (with Humanoids 2020 option), [IEEE, arXiv]
2. Naoto Komeno and Takamitsu Matsubara: Incipient Slip Detection by Vibration Injection into Soft Sensor, IEEE Robotics and Automation Letters, 2024, [IEEE, arXiv, YouTube]

触覚探索による柔軟素材で覆われた物体の形状推定

紙やビニールで包まれたペイストリー、ショック吸収性のある生地で覆われた水筒、または衣服を着た人体などの形状を推定する問題を考えています。覆われた材料の柔らかさのため、物理的な触れ方で得られる触覚情報は、その内側の形状を推定するのに役立つ場合があります。しかし、触覚情報だけを使うのは効率が悪いです。なぜなら、触れた地点の周囲の局所的な情報しか収集できないからです。私たちは、柔らかい材料で覆われたオブジェクトの内側形状を効率的に推定するためのアクティブ触覚探索フレームワークを提案しました。シミュレーションと実際のロボット実験の結果は、私たちの手法の有効性を示しました。
参考文献
1. Tomoya Miyamoto, Hikaru Sasaki, Takamitsu Matsubara: Exploiting Visual-outer Shape for Tactile-inner Shape Estimation of Objects Covered with Soft Materials, IEEE Robotics Automation Letters, 5(4), pp.6278-6285, 2020 (with IROS 2020 option), [Link]

実世界ロボットラーニングへの挑戦

強化学習による化学プラントの自動操業（横河電機/横河デジタル共同）

本研究では、大規模な化学プロセス制御シナリオにおいて自動制御戦略を設計する強化学習（RL）アプローチを探求しています。これは、実世界の化学プラントを知能的に制御するための第一歩と位置付けられます。典型的な化学プロセスでは、化学反応のユニット数や材料の供給やリサイクルなどにより、膨大なサンプル数が必要となります。この問題に対処するために、新しいRLアルゴリズムであるFactorial Kernel Dynamic Policy Programming (FKDPP)を提案しました。このアルゴリズムは、アクション空間を効率的に因数分解するファクトリアルフレームワークと、状態空間の高次元性による次元の呪いを軽減するDynamic Policy Programming (DPP) に導入することで、十分なサンプルがなくても安定した学習を実現します。商用の化学プラントシミュレーターを用いて、ビニルアセテートモノマー（VAM）プロセスの制御を評価されています。実験結果は、モデルの知識がなくても、提案手法が合理的な計算リソースで安定したポリシーを学習し、最先端のモデルベースの制御と比較して大量のVAM製品を生産することができることを示しています。FKDPPは2023年度の日本産業技術大賞・内閣総理大臣賞を受賞しました。
参考文献

Lingwei Zhu, Yunduan Cui, Go Takami, Hiroaki Kanokogi and Takamitsu Matsubara, “Scalable Reinforcement Learning for Plant-wide Control of Vinyl Acetate Monomer Process.” Control Engineering Practice, 97, April 2020, 104331 (IF: 3.232), [Link]
Lingwei Zhu, Go Takami, Mizuo Kawahara, Hiroaki Kanokogi, Takamitsu Matsubara: Alleviating Parameter-tuning Burden in Reinforcement Learning for Large-scale Process Control, Computers and Chemical Engneering, 158, 107658, 2022, [Elsevier]

ごみ焼却プラント自動運転（日立造船共同）

ゴミ焼却プラントのモデル化

廃棄物焼却プラントは、燃焼を安定させるために専門家のオペレーターがリアルタイムのビデオフィードを監視する複雑なシステムです。リアルタイムの予測は重要ですが、コスト効率の良いシステムのダイナミクスを学習することは難しい課題です。この論文では、リアルタイムでのデータ駆動型フレームワークを提案し、専門家の知識を学習中に取り入れることで、ビデオからの予測を実現します。実験結果では、提案手法が物理的なプロセスを的確に捉え、計算時間を大幅に短縮し、リアルタイムでの適用が可能であることを示しています。

Kaneko et al. Learning Deep Dynamical Models of a Waste Incineration Plant from In-furnace Images and Process Data, IEEE CASE2019.
Brendan Michael, Akifumi Ise, Kaoru Kawabata, Takamitsu Matsubara: Task-Relevant Encoding of Domain Knowledge in Dynamics Modelling: Application to Furnace Forecasting from Video, IEEE Access,10, pp.4615-4627, 2022, [IEEE]

2. ゴミクレーンの自動運転化

この研究の目的は、廃棄物焼却プラントの廃棄物クレーンの制御ポリシーを自律的なトライアンドエラーの方法で最適化するフレームワークを開発することです。廃棄物クレーンは大規模な機械システムであり、動作が遅く、タスクを実行するのに数分かかるため、タスクを実行してデータサンプルを得ることは非常にコストがかかります。さらに、異なる硬度や湿度を持つさまざまな材料で構成された可燃性廃棄物の状態を観察できるセンサーが存在しないため、廃棄物の不均質性はクレーンのタスクパフォーマンスに予測不可能な変動を引き起こします。これらの問題に対処するために、我々はパラメータ化された制御ポリシーのポリシーパラメータをMulti-Task Robust Bayesian Optimization (MTRBO)で最適化するフレームワークを提案します。我々のフレームワークは、(1)ゴミの不均質性に対するアウトライアの耐性と、(2)以前に解決されたタスクからのサンプルの再利用によるサンプル効率の向上という2つの特徴を備えています。我々のフレームワークの効果を調査するために、(i)疑似ゴミを使用したロボット廃棄物クレーンと(ii)廃棄物焼却プラントの実際の廃棄物クレーンを用いたゴミ撒きタスクの実験を行いました。実験結果は、我々のフレームワークが、ゴミの不均質性の影響を受けた場合でも、データ量を大幅に削減してもゴミクレーンの制御ポリシーをロバストに最適化したことを示しています。

Hikaru Sasaki, Terushi Hirabayashi, Kaoru Kawabata, Yukio Onuki and Takamitsu Matsubara: Bayesian Policy Optimization for Waste Crane with Garbage Inhomogeneity, IEEE Robotics and Automation Letters, 5(3), pp.4533-4540, 2020 (with CASE 2020 option), [Link]
Yuhwan Kwon, Hikaru Sasaki, Terushi Hirabayashi, Kaoru Kawabata, and Takamitsu Matsubara: Policy Optimization for Waste Crane Automation from Human Preferences, IEEE Access, vol. 11, pp. 126524-126541, 2023, [Link]
Hikaru Sasaki, Go Watanabe, Terushi Hirabayashi, Kaoru Kawabata, Takamitsu Matsubara: Learning Re-grabbing Policies based on Grabbed Garbage Weight Estimation using In-bucket Images for Waste Cranes, IFAC World Congress, pp.5494-5499, 2023

強化学習による形式言語に基づくロボットの自律性獲得（リコー共同）

この研究では、強化学習（RL）と線形時間論理（LTL）目標を組み合わせることで、ロボットが未知の環境で象徴的なイベントプラン（例えば、工場内の点検作業工程）を実行できるようにします。従来の方法では、イベント検出器が環境の状態を正確に象徴的なイベントにマッピングできると仮定していますが、現実のイベント検出器では不確実性が避けられません。イベント検出器の不確実性により、LTL命令に複数の分岐可能性が生じ、行動決定が混乱します。さらに、タスクの進行に必要な不確実なイベント検出クエリにより、不確実性がさらに増大する可能性があります。これらの問題に対処するために、不確実なイベント検出によるLTL命令の多様性を考慮し、不要なイベント検出クエリによるタスクの失敗を避けるエージェントを学習するRLフレームワーク、Learning Action and Query over Belief LTL（LAQBL）を提案しています。私たちのフレームワークは、信念LTLの埋め込み（グラフニューラルネットワークを使用してLTL命令の複数の分岐可能性を学習する）、行動ポリシー、およびイベント検出器へのクエリを決定するクエリポリシーを同時に学習します。2次元グリッドワールドと画像入力ロボット検査環境でのシミュレーションは、私たちの方法が不確実なイベント検出器でもLTL命令に従う行動を成功裏に学習することを示しています。

参考文献

Wataru Hatanaka, Ryota Yamashina, and Takamitsu Matsubara: Reinforcement Learning of Action and Query Policies with LTL Instructions under Uncertain Event Detector, IEEE Robotics and Automation Letters, 8(11), pp.7010-7017, 2023, [IEEE, arXiv]

ヒューマンフィードバックによるユーザ嗜好の天ぷら自動盛付け学習（がんこフードサービス共同）

この論文では、Computer Graphics（CG）ベースの料理画像を使用して、ユーザーの好みの食事の配置を対話型のペアワイズ比較から推定する問題を考慮しています。食品サービス業界の要件として、配置の幾何学に関するドメインルールを利用する必要があります（例：一部の日本料理の食品配置は山々を連想させます）。しかし、これらのルールは質的で曖昧であり、推定結果が物理的に矛盾する可能性があります（例：各食品が物理的に干渉し、配置が不可能になる）。この問題に対処するために、我々は、ドメインルールを満たす物理的に妥当で好ましい配置を得る手法として、物理的に整合性のある優先ベイジアン最適化（PCPBO）を提案しています。PCPBOは、物理シミュレーションベースの最適化とPreference-based Bayesian Optimization（PbBO）を組み合わせたバイレベル最適化を採用しています。実験結果は、PCPBOの効果をシミュレートおよび実際の人間のユーザーにおいて示しています。
1. Yuhwan Kwon, Yoshihisa Tsurumine, Takeshi Shimmura, Sadao Kawamura, and Takamitsu Matsubara: Physically Consistent Preferential Bayesian Optimization for Food Arrangement, IEEE Robotics and Automation Letters, 7(4), pp. 11863-11870 (2022), [IEEE, HP, arXiv]
2. Junki Matsuoka, Yoshihisa Tsurumine, Yuhwan Kwon, Takamitsu Matsubara, Takeshi Shimmura (Ganko Food Service), Sadao Kawamura (Ritsumeikan U): Learning Food-arrangement Policies from Raw Images with Generative Adversarial Imitation Learning, IEEE 17th International Conference on Ubiquitous Robots (UR2020), pp.93-98, 2020, [Link]

強化学習による小型船舶の自動運転化（古野電気共同）

本研究では、実物大のボートを自律的に制御するという難しい課題に取り組み、強化学習システムを開発しました。海洋環境における大きな不確実性と高コストの課題に対処するために、モデルベースの強化学習とモデル予測制御（MPC）を組み合わせた新しいガウス過程（GP）ベースの強化学習アプローチを提案しました。このアプローチは、確率的モデル予測制御（SPMPC）として知られ、ガウス過程のダイナミクスモデルを反復的に学習し、それを使用してMPCの閉ループ内で制御信号を効率的に更新します。SPMPCを使用したシステムを構築し、自動操縦タスクを効率的に学習しました。実際のボート走行データを用いたシミュレーションにより、提案システムが、シングルエンジンとGPS、速度、方向、風を計測するセンサーを搭載した実物大のボートを、人間のデモンストレーションなしで自動操縦タスクを学習することに成功したことが示されました。

参考文献

Yunduan Cui, Shigeki Osaki, Takamitsu Matsubara: Autonomous Boat Driving System using Sample-efficient Model Predictive Control-based Reinforcement Learning Approach, Journal of Field Robotics, 38(3), pp.331-354, 2021 (IF: 3.581), [Link]
Yunduan Cui, Shigeki Osaki and Takamitsu Matsubara: Reinforcement Learning Boat Autopilot: A Sample-efficient and Model Predictive Control based Approach, 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems IROS 2019: 2868-2875, (IROS 2019), [Link]

乱雑環境下における物体の能動探索ロボット（東芝共同）

この論文では、混雑した環境での遮蔽された物体の探索に対する、ガウス過程モデルに基づく確率的アクティブラーニングアプローチを提案しています。遮蔽が多いため、エージェントは作業領域内の物体を観察する際に、それらを系統的に再配置することで不確実性を徐々に減らす必要があります。この研究では、ガウス過程を使用して、システムのダイナミクスと観測関数の両方の不確実性を捉えます。ロボットの操作は相互情報量によって最適化されます。これは、二つのモデルの予測される不確実性に基づいて、1つの物体を移動して新しい物体を探索する可能性を自然に示します。アクティブラーニングフレームワークは、センサー観測に基づいて状態信念を更新します。提案手法は、シミュレーションロボットタスクで検証されました。結果は、ランダムなアクションによって生成されたサンプルであっても、提案手法が知能的な物体探索行動を学習し、その予測される状態が繰り返し地面の真実に収束することを示しています。

参考文献

Yunduan Cui, Jun'ichiro Ooga, Akihito Ogawa, and Takamitsu Matsubara: Probabilistic Active Filtering with Gaussian Processes for Occluded Object Search in Clutter, Applied Intelligence, 50(12), pp.4310-4324, 2020 (IF: 2.882), [Link]
James Poon, Yunduan Cui, Junichiro Ooga, Akihito Ogawa, and Takamitsu Matsubara: Probabilistic Active Filtering for Object Search in Clutter, IEEE 2019 International Conference on Robotics and Automation (ICRA 2019), pp.7256--7261, 2019, [Link]
松原ほか SI2018 pdf

強化学習の理論・アルゴリズム

方策改善性を高めた強化学習

この論文では、慎重なポリシープログラミング（CPP）という新しい価値ベースの強化学習（RL）アルゴリズムを提案します。このアルゴリズムは、学習中にポリシーの改善を単調に確保できます。エントロピー正則化RLの性質に基づき、ポリシーの改善の新しい下限値を導出します。この下限値は、期待されるポリシーアドバンテージ関数の推定のみを必要とし、ポリシーの振動を軽減するためのポリシーアップデートの度合いを調整する基準として利用されます。CPPは、この下限値を利用してポリシーアップデートの度合いを調整し、ポリシーの振動を緩和します。他の類似のアルゴリズムとは異なり、CPPは高次元の制御問題でよりスケーリングしやすくする新しい補間スキームも提案します。提案されたアルゴリズムは、教育的な古典的な制御問題や高次元のAtariゲームの両方で、パフォーマンスと安定性のトレードオフを示すことができることを示します。

Lingwei Zhu and Takamitsu Matsubara: Cautious Policy Programming: Exploiting KL Regularization for Monotonic Policy Improvement in Reinforcement Learning, Machine Learning Journal, 2023, [Link, arXiv]
Lingwei Zhu, Toshinori Kitamura, Takamitsu Matsubara: Cautious Actor-Critic, The 13th Asian Conference on Machine Learning (ACML2021), pp. 220-235 [30.4%, 115/378]
Toshinori Kitamura, Lingwei Zhu, Takamitsu Matsubara: Geometric Value Iteration: Dynamic Error-Aware KL Regularization for Reinforcement Learning, The 13th Asian Conference on Machine Learning (ACML2021), pp. 918-931 [30.4%, 115/378]

多峰ガウス過程方策探索

この論文では、方策探索強化学習がロボットの制御方策を学習するための方法として注目されています。特に、ガウス過程回帰などの非パラメトリックな方策を用いた探索は、高次元かつ冗長なセンサー情報から最適な行動を学習することが可能です。しかし、従来の方法は各状態に対して一意の最適行動があるという前提を置いています。しかし、これは実用的なタスクでは制約が大きいことがあります。なぜなら、複雑なタスクでは報酬関数を設計することが難しく、一つの最適な行動が存在することは稀であるからです。従来の手法はこの問題を解決できず、性能の低下を招くことがありました。そこで、我々は複数の最適な行動を持つ非パラメトリックな方策探索の新しいアプローチを提案し、スパースガウス過程事前分布と変分ベイズ推論をベースにした2つの異なるアルゴリズムを提案しています。これらのアルゴリズムは、複数の最適な行動を捉えるための多峰性と、一つの最適な行動を捉えるためのモード探索という2つのキーなアイデアに基づいています。このアプローチの有効性は、シミュレーション上でのオブジェクト操作タスクにおける複数の最適な行動への適用を通じて示されています。
Hikaru Sasaki and Takamitsu Matsubara: Variational Policy Search using Sparse Gaussian Process Priors for Learning Multimodal Optimal Actions, Neural Networks, 143, pp.291-302, 2021, [Elsevier, arXiv]
Yaqiang Mo, Hikaru Sasaki, Takamitsu Matsubara, Kimitoshi Yamazaki: Multi-step Motion Learning by Combining Learning-from-Demonstration and Policy-Search, Advanced Robotics, 0(0), pp.1-16, 2023, [Link]
Hikaru Sasaki and Takamitsu Matsubara: Multimodal Policy Search using Overlapping Mixtures of Sparse Gaussian Process Prior, IEEE International Conference on Robotics and Automation (ICRA 2019), pp.2433-2439, 2019, [Link]
Hikaru Sasaki, Terushi Hirabayashi, Kaoru Kawabata, Takamitsu Matsubara: Gaussian Process Self-triggered Policy Search in Weakly Observable Environments , IEEE International Conference on Robotics and Automation (ICRA2022), pp.5946-5952, 2022 arXiv youtube

Page updated

Google Sites

Report abuse