学部〜博士課程では、現実世界での応用を念頭においた強化学習手法の開発を課題としていました。
モデルフリーな方策オフ型深層強化学習をベースに、
情報伝達遅延が存在する場合の深層強化学習
安全性を考慮する深層強化学習
時間的な仕様を満たす方策の深層強化学習
の研究をしていました。
以下では、学部4年からこれまでの研究成果について簡単に紹介します。
情報の伝達遅延が生じる状況下での深層強化学習 (B4-D3)
強化学習では、学習主体であるエージェントとその周囲の環境が相互作用することで最適な行動方策(制御方策)を学習します。しかしながら、現実の世界では、エージェントと環境の状態や行動の伝達には遅延が生じることがあります。ネットワーク技術の発展に伴い注目されているネットワーク化制御の問題設定もこの一例であるといえます。情報伝達遅延が生じる問題では、標準的な強化学習において重要な仮定であるマルコフ性を満たさないことが知られています。このような問題に対し、高次元な状態空間を扱うことに優れた深層ニューラルネットワークを利用し、過去の行動選択の履歴も環境の状態とみなすことで方策の学習を可能にしました。
ネットワーク化制御による非線形システムの安定化を題材に研究をおこなっていましたが、後に説明する時相論理式を満たす方策の学習においても上記の手法が有効であることがわかってきました。
強化学習のカオス制御への応用 (B4-M1)
強化学習は制御対象のモデルが未知である状況においても行動方策(制御方策)を学習することができます。しかしながら、最適な(もしくは最適に近い)方策を得るためには大量のデータ、つまり多くの試行錯誤が必要となります。一方で、パラメータがわかっていない場合でも、システムの大まかな性質がわかっている場合があります。離散時間カオスシステムは、何度も周期安定点に近づくことが知られています。この性質を利用し、まずはシステムの挙動を観察し、周期点が含まれる周期点近傍領域を特定し、その領域に入った場合にのみエージェントは行動を決定する(制御入力を印加する)ような強化学習アルゴリズムを提案しました。この考え方は、代表的なカオス制御理論であるOGY法や遅延フィードバック制御から着想を得た方法になります。
できるだけシステムに影響を与えずに周期軌道へ制御したい場合に有効な手法となります。
左の画像はグモウスキー・ミラ写像のカオスアトラクタの様子。右の画像は、実際にカオス制御をおこなった場合の時間応答。わずかな入力を加えるだけでシステムを不動点安定化できる。
シミュレーションのずれを考慮した強化学習による非線形システムの安定化 (D1-D2)
強化学習はエージェントと環境が実際に相互作用しながら経験を集める必要があり、安全面、サンプル効率の面から物理システムへの応用は難しいとされています。これに対し、方策だけでなく対象のモデルも学習し、その学習されたモデルから仮想的な経験を得るDynaとよばれるモデルベースな手法が提案されています。そのほかに、物理システムのシミュレータを作成し、シミュレータ内で方策を学習させるという手法があります。しかしながら、これらのモデルは対象の真のモデルと誤差があることがほとんどです。そこで、 Continuous Deep Q-learning という深層強化学習アルゴリズムの特性を活かし、シミュレータ内の仮想システムに対する事前学習と、実システムを用いた調整を組み合わせた2段階の学習アルゴリズムを提案しました。第2段階では素早いパラメータ調整を可能にするため、複雑になりすぎないよう、第1段階で得たDNNの線形和で真の対象に対するQ関数を近似しています。深層ニューラルネットワークのパラメータ調整に比べ、線形パラメータの調整は容易なため、システムパラメータが少しずつ変動するような場合にも適応できることを数値実験により経験的な結果として示しました。
Signal Temporal Logic を満たす方策の学習法 (D2-D3)
時相論理は、計算機科学で生まれた概念ですが、近年、制御のコミュニティでも時間的なタスクを達成する制御器の設計方法として注目されています。制御では、安定化問題や目標追従などが問題設定とされることが多いですが、時相論理を用いることで「常にここに入らないように、いつまでにここへ制御し、その後ここへ制御せよ」などといった複雑な目的を達成する制御器の設計が数理的に可能となります。
特に、システム制御では、
Linear Temporal Logic (LTL)
Metric Temporal Logic (MTL)
Signal Temporal Logic (STL)
という論理式の仕様が標準的になっています。
一方、モデルベースな制御だけでなく、強化学習でもこれらを利用した手法がいくつか提案されています。特に、LTL を利用する場合、LTL式を ω-オートマトンと呼ばれる抽象的なモデルに変換し、MDPと合成することで (つまり、MDPの状態とオートマトンの状態の合成が環境の状態となる)、通常の強化学習アルゴリズム (例えばQ学習) で学習できることが知られています。所属研究室のOBである優秀な後輩がこの分野で研究成果を残しています。
私は、この LTL ではなく、STL 仕様を満たす方策の強化学習の研究をおこなっています。STL では時相演算子に時間区間の制約がついているため、LTL よりも仕様に関する表現能力が高い一方で、ω-オートマトンに変換することができないという問題があります。そのため、LTL方策の学習のテクニック (合成MDPの利用) が使えません。
現在、連続状態連続行動を仮定した STL 仕様を満たすための強化学習アルゴリズムの研究に注力しています。現在は、ある程度 STL の構文を制約した上で、DRL による学習が可能といったところまで成果が出ており、IEICEのソサイエティ大会で発表させていただきました。
さらに、この STL仕様の充足を制約と捉え、燃料を最小化する方策の学習についても考えています。一般に、制御仕様を満たす方策は一つではなく、連続値制御の場合、無数に存在することがほとんどです。その中でもさらにユーザーが欲している方策を得るため、問題を Constrained Markov Decision Process (CMDP) でモデル化し、Constrained DRL を用いて方策を学習する手法を研究しています。
二つの区域を定期的に行き来する方策による制御の様子。
一定時間、指定した領域にとどまる方策による制御の様子。
ダイナミクスの異なる二つのロボットを衝突しないようにしながら2つの領域を行き来させる制御のようす。