[ε-greedy]

ε-greedyは確率ε(0以上1以下の定数)でランダムに行動を選択し、確率1-εで期待報酬が最大の行動を選択する方法。