Facebook Page


Archives

Strategies and Games Theory and Practice – Prajit K. Dutta

上個學期沒有修讀哲學的課﹐改行走了去讀經濟學。我一直對博奕理論(game theory)深感興趣﹐可惜多次嘗試看書自修也半途而癈﹐結果還是要找人教才是最有效的學習方法。博奕理論與我主修的道德和政治哲學也有密切關係﹐哲學家正嘗試利用博奕理論去解釋社會契約的建立﹐用理性的架構去推論何謂道德和公義。

其實這個學期我沒有付學費﹐博奕理論是大班上堂﹐一個演講廳三四百個學生﹐可以偷偷地走進課室內旁聽。反正這科不用教授改文章﹐功課只是計數還逢送答案﹐我既然不需要拿學分﹐便無謂花費冤枉錢了。不過我偷上堂倒也大膽﹐不單坐第一行舉手問問題﹐教授邀請學生當博奕理論實驗的白老鼠時﹐我還膽粗粗問教授我不是學生可不可以參加。讓我親身感受博奕理論的實驗﹐順帶還贏了十二元作午飯錢。

博奕理論聽落很高深難懂﹐當中要涉及數學或許真的很難﹐又要用微積分又要用機遇率﹐不過博奕理論的慨念其實簡單易明。要找量化找出最佳平衡點不容易﹐若果只是借用其慨念作粗略估計﹐博奕理論教懂我用一個全新的角度看世界。博奕理論不單只是悶蛋經濟學﹐其原理甚至可以應用日常生活中需要作出的決擇﹐這讀課真的我讓我大開眼界﹐可以說是上了人生寶貴的一課。

上第一堂時教授已向我們說清楚﹐博奕理論並不等同現實﹐只是世界的完美模疑。但是分析這個完美世界﹐是認識清楚現實世界的第一步。先要打好理論的基礎﹐才能應付現實中不同的變化。課程的安排由淺入深﹐先讓我們學習簡單完全脫離現實的博奕賽局﹐明白最重要的幾個基礎慨念後﹐才慢慢加入越來越複雜﹐和越來越像現實的賽局變化。

博奕理論假定所有參加者(player)也是理性和小心﹐即是他們一定會作出最大回報的選擇﹐不會不小心計錯數。但博奕理論不需要假定參加者自私﹐因為利他因素也可以包括在回報的計算內。任何人學習博奕理論的起點﹐也必定是囚徒困局(prisoner dilemma)﹐兩個囚犯決定招或不招供。這是一個完美全知動態單次賽局(perfect complete static single game)﹐亦是最最最簡單的賽局模式。

納殊平衡(Nash equilibrium)是博奕理論最常聽到的名詞。納殊平衡是指所有參加者都不能作出任何單方面行動去增加自己的回報。即是賽局處於一個平衡狀態﹐你可以去預測對手的選擇﹐因為對手只不可能有更加好的選擇。數學上證實了納殊平衡必然地存在﹐教授雖然曾寫出了證明算式﹐不過那條數實在太深奧了﹐幸好我來旁聽不用考試。

劣勢策略(dominated strategy)是指不論在任何條件下﹐也有更加好選擇的選擇。一個理性的參加者﹐是永遠不會選擇劣勢策略﹐因為另一個選擇有更好回報嘛。所以我們可以用反覆刪減法(iterated elimination)﹐除去賽局中的劣勢策略﹐簡化賽局的分析﹐甚至找出賽局的答案(solution)﹐亦即是賽局納殊平衡點。

很多時賽局沒有純種策略(pure strategy)﹐即是一個可百搭所有條件的選擇﹐但一定會有至少一個混合策略(mix strategy)。混合策略是指你的最好選擇﹐便是按計算出來的機會率﹐隨機地作出某一個選擇。對手不論如何回應你的選擇﹐他的遇期回報(expected return)也不會超過納殊平衡點。

只要明白納殊平衡的慨念後﹐重覆賽局(finite game)無窮賽局(infinite game)和動態賽局(dynamic game)只是更加複雜賽局﹐其解答原理與基本賽局一樣。利用反向歸納法(backward induction)﹐找出每個子賽局的納殊平衡(sub-game Nash equilibrium)﹐再反覆推論找出整個賽局的納殊平衡。無窮賽局最特別的地方﹐是採用懲罰策略(punishment)﹐用損己損兩敗俱傷的方法﹐去迫對手不作出某些選擇。博奕理論便可以用來計算﹐最有效的懲罰策略﹐在自己損失最小的情況下﹐收到最大的阻嚇作用。在靜態賽局中﹐每一局的條件也是不變﹐而動態博奕的條件則受上一局選擇影響。

不完美賽局(imperfect information game)和不完全賽局(incomplete information game)是兩個不同變化﹐這兩個變化很容易混淆。前者是指參加者知道對手的選擇條件﹐但不知道對手曾經作出甚麼選擇。後者則是指參加者並不知道對手的選擇條件﹐只知道對手所有選擇條件的可能性。不完美賽局的解答原理同上﹐但不完全賽局則要使用貝氏納殊平衡(Bayes-Nash equilibrium)來解答。其他有趣的單元不能逐一詳例﹐如零和賽局(zero-sum game)﹐道德風險(moral hazard)﹐賽局設計(mechanical design)﹐訊息賽局(signaling game)﹐每種賽局也各有特性和用途。不過說穿了萬變不離其宗﹐納殊平衡就是解答的關鍵所在。

課程除了空談理論外﹐還有分析一些現實例子﹐好讓學生見識博奕理論的實際應用。當然那些例子中使用數據經過簡化﹐但已足以說服我博奕理論的威力。引用石油輸出國組織(OPEC)和七十年代的石油危機﹐解釋為什麼引入競爭會令市價下跌﹐而壟斷不利消費者。分析NASDAQ股市和政府債卷﹐指出金融機構私下互通狽狙為奸的害處﹐以及如何防止他們聯手造市。最令我感到如夢初醒﹐是分析英式拍賣和荷式拍賣不同﹐並指出賣方在兩者的預期收入均等。

儘管修讀了博奕理論的課﹐我不敢說自己懂博奕理論﹐我只略懂博奕理論的皮毛。我雖然不懂如可計算運用﹐但還是可以看穿那些不懂經濟學的社會學者﹐拿著博奕理論當晃子的把戲﹐不怕人家拋幾個博奕理論專有名詞便被嚇倒。讀博奕理論最有用的地方﹐還是提升我玩樸克牌的心理素質。以納殊平衡來決定如何下注﹐知道對手不可能有更好的預期回報﹐剩下來是便是賭運氣﹐看看誰的牌較大。再不用擔心對手是否偷雞作大﹐因為長線而言誰拿大牌的機會率是均等。若果對手不是以納殊平衡下注﹐在機會率上他已經輸了。真的很神奇地﹐以前我玩牌輸多贏少﹐近來玩牌就算不贏﹐也不會大輸。不講不知﹐樸克世界賽的冠軍就是個數學博士﹐是他發明了納殊平衡的玩法﹐當然他計算如何下注比我複雜很多。

2 comments to Strategies and Games Theory and Practice – Prajit K. Dutta

Leave a Reply