戦略の適応
研究詳細(Research Details)
2.戦略型ビデオトレーディングカードゲーム(TCG)におけるCOMの戦略の自動獲得
TCG(遊☆戯☆王@KONAMIやポケモン@任天堂)は以下のようなルールでゲーム進行するのが一般的です.
自分で作成したカードの組合せ(デッキ)を準備
デッキからカードを引き,交互にカードを出す
カードのモンスターや特殊効果で攻撃したり防御したり
モンスターが全部やられる,または,
プレイヤの持ちポイント(体力)が0になると勝敗が決する.
TCGでは,デッキを用意する段階での戦略,出すカードの種類や順番を決定する際の戦略,
出したカードで攻撃するのか防御するのかといった行動選択する際の戦略が存在します.
人間プレイヤはそれらの戦略を考えること,また,他のプレイヤと競うことに楽しみを見出します.
対戦することに楽しみを見出す傾向が強いTCGにおいて,COMの戦略レベルの設定(調整)や人間らしい自然な戦略は必要不可欠です.
しかし,市販のビデオTCGにおけるCOMは,研究背景で述べたとおり,以下の要素が未実装の状態です.
プレイヤの要求に合わせた強さ(自然な強くなさ)の設定
プレイヤのプレイスタイルにCOMの戦略も適応
人間プレイヤに人間的であると解釈される
本研究では,戦略型ビデオTCGを題材とし,戦略学習機構によるCOMの戦略の自動獲得を目指します.
プレイヤの様々な戦略に臨機応変に適応するCOMを自動で生成できれば,ゲームのエンタテインメント性の向上とユーザ数の確保,
また,ゲームデベロップメントにおける開発コストの削減につながります.
戦略的な要素として,モンスターの組合せ(デッキ構築),モンスターの属性の相性,
状態異常(魔法)攻撃,トラップ(罠)の設置,といったTCGで一般的な要素を考慮しています.
戦略学習機構を実装する上での困難性として,以下の3つが挙げられます.
部分観測空間となる
→相手の手札が見えないため,推定する必要がある.
ゲームの状態空間が巨大である
→モンスターの組合せや様々なパラメータをすべて考慮すると,現実的な時間で問題を解決できない.
ゲームにおける価値(自分が優勢かどうか)に遅れが生じる
→一旦不利な状態になるが,その後に一発逆転できる要素が多数存在する.
そこで,多層パーセプトロンにより相手の行動予測やゲームの状態価値を学習し,
ランダムサンプリングと状態圧縮により計算量を削減することで,戦略学習を実現しています.
計算機による学習実験から,以下の結果を確認しています.
プレイヤの様々な戦略に適応可能
新たなルールの追加にも臨機応変に適応可能
TCGにおける汎用的な戦略(定石)の獲得が可能
<関連する研究業績>
藤井叙人・片寄晴弘,「戦略型トレーディングカードゲームのための戦略獲得手法」,『情報処理学会論文誌』,情報処理学会,Vol.50 No.12,pp. 2796-2806,2009/12/15 [DOWNLOAD]
Nobuto Fujii, Mitsuyo Hashida, Haruhiro Katayose, "Strategy-acquisition System for Video Trading Card Game", International Conference on Advances in Computer Entertainment Technology 2008 (ACE2008), pp. 175-182, Keio University Japan, 12/2008 [DOWNLOAD]