보상의 최대화: 행동의 선택