*緑マス=報酬(+1)、赤マス=罰(-1)、黄マス=両方(0)、黒マス=なし(0)。
*青マス=クリーチャー
*クリーチャーは近傍の5×5マスを観測できる。
*各時刻において、クリーチャーは上下左右のどこかに1マス動ける。
テスト課題
*1000ステップの間に得られるスコアの合計を最大化する。
操作方法
"training" ... パラメータの学習を開始。行動はランダム。報酬・罰マスは踏んでも消えない。
"test" ... テスト課題を開始。行動は行動方策により決定。学習はしない。報酬・罰マスは踏むと消える。
"stop" ... セッションを終了する。再度training,testを押した場合は続きから再開。
text box ... ニューラルネットの特徴を決定するパラメータ。初期状態では書き換え可能。saveで保存した内容をコピペ可能。
"save" ... text boxの内容をダウンロードする(拡張子はcsv)。
*初期状態に戻すにはブラウザでページをリフレッシュする。
パラメータの意味
A ... 隠れ状態(s_t)から観測(o_t)を決める尤度関数行列。aは"Aの初期値" × "可塑性に対する不感受性"。Qaはaの事後確率。
B^u ... 行動uをとる時の隠れ状態(s_t)から次の隠れ状態(s_t+1)を決める遷移確率行列。b^uは"B^uの初期値" × "可塑性に対する不感受性"。Qbはbの事後確率。
C ... 観測に対する嗜好(preference prior)。
D ... 隠れ状態の事前分布。
E ... 観測の事前分布。
R ... Cに関する精度。
Gamma ... 確率遷移モデルを信じる度合い(0 ≤ Gamma ≤ 1)。
最適化方法
*クリーチャーの3層ニューラルネットは、テキストボックス内のパラメータ(のみ)で特徴付けられている。
*パラメータは変分ベイズ形式で表記されている。ニューラルネットとしての意味は対応表を参照。
*パラメータ行列A,Bはtrainingによって学習する。テキストボックス内の値(Qa,Qb)が次回の初期値(a,b)となる。
*定数ベクトルC,D,E,R,Gammaはシミュレーション内では固定値。テキストボックス内の値を変更すると反映される。