張貼日期:Mar 25, 2018 3:50:40 PM
作者:高竹嵐 副教授(國立陽明交通大學統計研究所)
前一期,我們提到了遊戲爛掉的其中一種可能:必勝或必和。好在這種狀況通常有一些處理方法,例如:
l 讓盤面可能性多到天文數字算不動
最經典的例子就是圍棋,盤面可能性目前還多到電腦無法窮舉。
l 讓遊戲準備時有隨機性
舉例來說,2006 年的德國年度複雜遊戲獎得主-Caylus,只有剛開始六片會在遊戲開始時隨機擺放,遊戲進行中完全沒有隨機。這等價於有 6! = 720 種不同遊戲(感謝強者我朋友朴榮恭指正)。能把 720 種情況下的必勝法都求出來,算你厲害。
l 讓遊戲途中有隨機性
這是最常見的作法。直接違背了 Zermelo’s Theorem 的假設(參考你的遊戲爛掉了(一)必勝棋局),因此定理不適用。基本上,任何要丟骰子的遊戲都是這麼一回事。
但問題是,就算解決了這一點,遊戲就沒問題了嗎?喔,很抱歉,當然不是。
囚犯困境與優勢策略
讓我們用經典的囚犯困境(Prisoner’s Dilemma)來說明。略過前面的警匪追逐過程,總之最後有兩個犯人被抓進警局,分開偵訊。警察私下跟兩個人說:
l 如果你們兩個都指控對方,你們都關 5 年;
l 如果只有其中之一指控對方,被指控的關 10 年,指控的當庭釋放;
l 如果兩方都不指控對方,你們都關 2 年。
畫成表就長這樣:
讓我們來進入甲的腦內劇場:
l 如果乙很有義氣地不指控我,而我指控乙,我就直接走人,但沒指控要關 2 年。
l 如果乙很沒義氣地指控我,而我指控乙只要關 5 年,但沒指控要關 10 年。
l 啥鬼啦!橫豎我指控都比較好嘛!乙,對不起囉~
用賽局理論(Game Theroy)的語言來說,這表示甲有一個優勢策略(Dominant Strategy)叫做「指控」。因為不管乙的選擇是什麼,甲「指控」都會得到比沒指控更好的結果。
可怕的事情是,乙會進行一模一樣的腦內劇場。換言之,甲乙最後都會選擇「指控」,然後一起被關五年,在牢房裡面互相幹譙對方,為什麼這麼沒有義氣!
當甲乙雙方都有優勢策略時,雙方自然都選擇優勢策略,進入所謂的優勢策略均衡(Pure Strategy Nash Equilibrium)中。也就是這裡雙方都互相指控的那一格(5年/5年)。
正常情況下,他們永遠無法進入所謂的柏拉圖最優(Pareto Optimal)的一格(2年/2年)。柏拉圖最優的意思是,不存在其他格子,使得每一個人都沒有變差,而且至少有一個人變得更好。在此例中,任何其他格子都至少有一個人關得比2年久,所以2年/2年是其中柏拉圖最優的格子,卻是永遠無法企及的一格。
混合策略與納許均衡
當然,不是所有的盤面都有優勢策略均衡。舉例來說,如果剪刀石頭布贏的人 1 分,輸的人 -1 分,平手 0 分的話,剪刀石頭布的盤面長這樣:
可以很輕易地看出,這個盤面沒有優勢策略;畢竟剪刀石頭布是對稱的,沒道理其中一個特別厲害。
但這是只考慮純策略(Pure Strategy)的情況下。也就是,假設雙方只能單押「我要出剪刀」或「我要出石頭」等單一選項的話。
假設讓雙方都聰明一點:與其選擇單一選項,讓我們允許雙方給予這些選項一個機率分布。
舉例來說,甲方可以選擇「我70% 要出剪刀,20% 要出石頭,10% 要出布」。這個(70%,20%,10%)稱為一個混合策略(Mixed Strategy)。
``如同優勢策略的思維,能不能找到一個『優勢』的混合策略呢?''
我們需要停下來思考一下,『優勢』是什麼意思?注意到純策略的優勢策略,可以視為『我管你選什麼,我都沒差』。所以,優勢的混合策略比照辦理,原則就是『我管你選什麼,我都沒差』。
我們可以用數學來求這個最佳策略。
假設混合策略是(x,y,z)。基於機率加起來是1,所以必然要有 x+y+z=1。此外,由於希望不管對方是出剪刀石頭還是布『我都沒差』,所以,三個狀況下的期望分數應該是一樣的。也就是說,
-y+z = z-x = x-y
簡單的代數運算就會得到 x = y = z = 1/3。非常合理,反正我隨便出,你奈我何?
套用相同的概念去分析更複雜的狀況。舉例來說,有一種剪刀石頭布的變型,是依照你出的手指數來看你贏的時候的分數,如下:
讀者有興趣可以算算看,這個盤面的混合策略是什麼?
既然有混合策略,相對就會有混合策略均衡(Nash Equilibrium)的概念。即是,雙方都照著各自的最佳混合策略走。
電影美麗境界的主角約翰·納許 (John Nash) ,用數學證明了
「如果玩家人數有限,選項有限,則必然存在混合策略均衡。」
事實上,在若干條件下,甚至可以把證明擴張到無限多的選項。例如『在 [0,1] 閉區間選一個數字』這樣的比賽。
遊戲設計的應用
那…這關遊戲什麼事?基本上,遊戲是個動態的過程,依照以上的定理,可知無法避免混合策略均衡的存在。但遊戲設計者想要避免的,有以下兩件事:
1. 希望遊戲不要從頭到尾都有固定的優勢策略
不然的話,你大可以跟別人說『輪到我,幫我做A這個動作』,然後就去旁邊滑手機了。
2. 希望遊戲不要從頭到尾都有固定的最佳混合策略
不然的話,你大可以跟別人說『輪到我,幫我丟顆骰子,照骰子結果做事』,然後就去旁邊滑手機了。
世紀帝國 2 遊戲畫面(圖片來源:http://3c.technews.tw/2015/04/11/aoe2-new-expansion/)
說起來簡單,不過,執行起來一點都不簡單。遊戲史上失衡的例子所在多有。舉個相對有名的例子:如果把選種族當成一個遊戲策略選項的話,那世紀帝國2的條頓幾乎就是個優勢策略。管你對手選啥,你選條頓就對了!!
星海爭霸遊戲畫面(圖片來源:https://www.geforce.com.tw/games-applications/pc-games/starcraft-2-heart-of-the-swarm)
相對的,如果遊戲平衡設計得恰到好處,就是經典。這也是為什麼星海爭霸系列在遊戲設計史上的地位這麼崇高,因為它幾乎創造了沒有優勢策略的種族設定,人族、神族、蟲族近乎平衡。但也只是近乎平衡,你時不時還是會發現大家出來喊『T imba』(遊戲用語 =人類 imbalance = 靠北太強了啦!)或之類的。同樣的狀況,也出現在內部的策略選擇上,例如人類一度就是死神開,神族教鳳流(教士+鳳凰)等等。
於是,你就看著暴雪(星海爭霸的公司)不斷地改版,不斷地在最佳混合策略被看出來的時候,趕快調整一些數值,讓玩家們重新去尋找最佳混合策略,延長遊戲的生命週期,同時間罵幾聲『暴雪你在想什麼啊!!!』