预期回报和纯策略
首先,让我们深入探讨扑克游戏的根本目标。我们打牌的目的是什么?当然是赢钱。准确地说,我们追求的是最大限度地赢取利润。在做决策时,我们应该询问自己,哪种行动能够带来最大的预期回报?
在我们的案例中,如果你手中有一手可能获胜的牌,你会选择下注。在你下注之后,你的对手可能会选择跟注(y),也可能会选择弃牌(1 – y)。当对手跟注时,你将赢得当前的底池,并得到对手的跟注金额,总计为 P + B。而当对手弃牌时,你只能赢得当前的底池金额 P。(这里的“当前底池”通常指在你下注之前的底池规模。)因此,如果你手中有一手可能获胜的牌,你的预期回报 Ew (w 代表“获胜 winning”)将是:
\[Ew = y(P + B) + (1 – y)P.\]
然而,如果你手中的牌不利(你的听牌没有成功),情况就会更为复杂。你可能会选择继续加注(x),也可能会选择放弃这手牌(1 – x)。
如果你选择加注,你的对手仍有可能跟注(y),或者选择弃牌(1 – y)。当对手跟注时,你将损失这次加注的金额,因此你的净回报是负数,即 –B。当对手弃牌时,你将赢得当前底池的金额 P。因此,当你选择加注时,你的预期回报由以下两部分组成:
\[El = x[(1 – y)P – yB].\]
如果你选择放弃(弃牌),你将不会赢得任何筹码,因此你的预期回报为零。因此,在面对一手不利的牌时,你的预期回报 El (l 代表“失败 losing”)将是:
\[El = (1 – x)0 + x[(1 – y)P – yB].\]
第一部分为 0,因此我们可以直接忽略,公式简化为:
\[El = x[(1 – y)P – yB].\]
如果你知道你的对手永远不会跟注(y = 0),你的预期回报公式将简化为:
\[El, y=0 = xP.\]
为了最大化你的预期回报,你必须令 x = 1,这意味着你应该始终继续加注。
而如果你的对手总是跟注(y = 1),你的预期回报公式将变为:
\[El, y=1 = – xB.\]
在这种情况下,为了最大化你的预期回报,你必须令 x = 0,这意味着你永远不应该继续加注。(记住这条法则:“永远不要继续加注一个跟注站”)
通过博弈论的方法,我们只考虑了你的最佳情况,以及知道你的对手在两种特殊情况下的策略。但是,这些情况都是极端的,因此被称为纯策略。在实际的扑克游戏中,对手的行为通常更加难以预测。他们可能会有一定的概率跟注你的下注(y 介于 0 和 1 之间)。这就是混合策略。
最佳策略
你的对手可以选择一个跟注频率y,这个y可以让你无论采取何种策略(也就是无论x取何值),你的预期回报都不会改变。我们用y_opt来表示这个跟注频率,在某种意义上,y_opt是y的最佳值。
y_opt很容易计算。你可以在后面的附录中找到它的计算公式:
\[y_opt = \frac{P}{P + B}.\]
在我们的例子中,P = B = $100,所以y_opt = 1/2。如果你的对手有一半的时候会跟注,你就无法通过调整策略来战胜他了。如果你的对手根据y = y_opt的策略打牌,你的预期回报将会是:
\[E_{l,y=y_{opt}} = x\left[\frac{PB}{P + B} - \frac{PB}{P + B}\right] = 0.\]
(即将y_opt代入一般预期回报公式中)。如果x没有出现在公式中,结果也不会发生变化,仍然是0。因此,无论你选择何种策略(无论x取何值),你都无法提高或降低你的预期回报。
有趣的是,y_opt只取决于底池大小和下注大小,而不受q的影响。这表明y_opt并不总是y的最佳值。例如,当q=1时,也就是你的对手确定你有一手获胜牌,他就不会有一半的次数跟注,实际上他根本不会跟注。他会选择使用y=0的策略。我们会在后续的内容中看到,y_opt在什么情况下才是最佳值。
同样地,你也可以选择一个x,而无论对手选择何种策略(无论y取何值),他的预期回报都将保持不变。我们用x_opt表示这个x的特殊值。但是,求x_opt的 值会更加复杂一些,它的公式是:
\[x_opt = \frac{qB}{(1 – q)(P + B)}.\]
(如果你对细节感兴趣,请参考后面附录的内容)如果你经常使用会失败的牌来进行加注,对手的预期回报将是:
\[E_{op} = (1 – q)P – \frac{qPB}{P + B}.\]
在这个公式中没有y的存在,因此你的对手无法通过调整他的策略来改变他的预期回报。
在我们的例子中,假设底池和下注都是$100,且q = 0.2,因此x_opt = 1/8。如果你选择的加注概率是1/8,那么即使对手再观察得再仔细,了解你的策略(知道x = x_opt),也无法在策略上战胜你。然而,如果你的加注频率高于或低于1/8,那些善于观察的对手就会发现你策略上的弱点。所以当你面对一个非常出色的对手时,x_opt 可以确保你的策略是最佳的。
一个优秀的对手会多频繁地跟注你的下注?y_opt已经给出了答案。如果你根据x = x_opt的策略打牌,对手可以选择任何策略,但都不能提高或降低他们的预期回报。如果对手不使用y = y_opt的策略打牌,作为一个善于观察的玩家,你就可以利用他们的错误,选择最佳的回应方式。唯一不能利用对手策略上的错误的情况是对手使用的是y = y_opt,此时无论你使用何种策略,你的预期回报都不会改变。需要记住的是,如果你不使用x_opt的策略,对手也会调整策略来利用你的缺陷。
现在我们知道了x_opt和y_opt在什么情况下才是最佳的:在它们能够提供不被对手利用的策略时。在博弈论中,这两个策略(x_opt,y_opt)被称为纳什均衡点。这在博弈论和经济学中都是非常重要的概念。(没错,就是电影《美丽心灵》中的纳什,1994年诺贝尔经济学奖的获得者)。现在我们知道它在扑克中也扮演着重要的角色。