AlphaGoは、
・方策ネットワーク(policy network)
・価値ネットワーク(value network)
という2つのニューラルネットワークを使用している。
方策ネットワークにより、検索の優先順位を行う。
価値ネットワークにより、従来より高い精度で局面の勝率を予測できるようになった。
[Back]