ASCONE2019: Free energy creature

スライド：isomura_ascone2019_v1.0.pdf

＊緑マス＝報酬(+1)、赤マス＝罰(-1)、黄マス＝両方(0)、黒マス＝なし(0)。

＊青マス＝クリーチャー

＊クリーチャーは近傍の5×5マスを観測できる。

＊各時刻において、クリーチャーは上下左右のどこかに1マス動ける。

テスト課題

＊1000ステップの間に得られるスコアの合計を最大化する。

操作方法

"training" ... パラメータの学習を開始。行動はランダム。報酬・罰マスは踏んでも消えない。

"test" ... テスト課題を開始。行動は行動方策により決定。学習はしない。報酬・罰マスは踏むと消える。

"stop" ... セッションを終了する。再度training,testを押した場合は続きから再開。

text box ... ニューラルネットの特徴を決定するパラメータ。初期状態では書き換え可能。saveで保存した内容をコピペ可能。

"save" ... text boxの内容をダウンロードする（拡張子はcsv）。

＊初期状態に戻すにはブラウザでページをリフレッシュする。

パラメータの意味

A ... 隠れ状態(s_t)から観測(o_t)を決める尤度関数行列。aは"Aの初期値" × "可塑性に対する不感受性"。Qaはaの事後確率。

B^u ... 行動uをとる時の隠れ状態(s_t)から次の隠れ状態(s_t+1)を決める遷移確率行列。b^uは"B^uの初期値" × "可塑性に対する不感受性"。Qbはbの事後確率。

C ... 観測に対する嗜好（preference prior）。

D ... 隠れ状態の事前分布。

E ... 観測の事前分布。

R ... Cに関する精度。

Gamma ... 確率遷移モデルを信じる度合い（0 ≤ Gamma ≤ 1）。

最適化方法

＊クリーチャーの3層ニューラルネットは、テキストボックス内のパラメータ（のみ）で特徴付けられている。

＊パラメータは変分ベイズ形式で表記されている。ニューラルネットとしての意味は対応表を参照。

＊パラメータ行列A,Bはtrainingによって学習する。テキストボックス内の値(Qa,Qb)が次回の初期値(a,b)となる。

＊定数ベクトルC,D,E,R,Gammaはシミュレーション内では固定値。テキストボックス内の値を変更すると反映される。

Page updated

Google Sites

Report abuse