囚徒困境博弈
---------------------------------------------------------------- 塔克是從這樣一個(gè)小故事開始的:兩個(gè)夜賊,鮑伯(Bob)和艾爾(Al),在行竊現(xiàn)場(chǎng)附近被抓獲并被警方隔離拷問。每個(gè)夜賊都必須選擇是否坦白和揭發(fā)對(duì)方。如果兩個(gè)賊都不坦白,他們都將被判刑一年。如果每個(gè)賊都坦白并揭發(fā)對(duì)方,他們都將在監(jiān)獄中度過10年。但是,如果一個(gè)賊坦白并揭發(fā)對(duì)方,而另一個(gè)賊不坦白,那么與警方合作的賊將被釋放而另一個(gè)賊將在監(jiān)獄中度過20年。 在這個(gè)例子中的戰(zhàn)略是:坦白與不坦白。贏利(payoff)(實(shí)際上是處罰)是判刑。我們可以用“贏利表(payoff table) ”簡(jiǎn)潔地表達(dá)上述信息,這類贏利表已經(jīng)成為博弈論中很好的標(biāo)準(zhǔn)表達(dá)式。以下是囚徒困境博弈的贏利表。 表2-1 艾爾 坦白 不坦白 鮑伯 坦白 10,10 0,20 不坦白 20,0 1,1 這個(gè)表的讀法是這樣的:每個(gè)囚犯從兩個(gè)戰(zhàn)略中選擇一個(gè)。即,艾爾選擇一列,鮑伯選擇一行。每個(gè)單元格的兩個(gè)數(shù)字告訴兩個(gè)囚犯相應(yīng)的戰(zhàn)略被選擇后的結(jié)果。逗號(hào)左邊的數(shù)字表示選擇行的人(鮑伯)的贏利,逗號(hào)右邊的數(shù)字表示選擇列的人(艾爾)的贏利。因此(先閱讀第一列),如果他們都選擇坦白,每人將判刑10年,但是如果艾爾坦白而鮑伯不坦白,鮑伯被判20年而艾爾將被釋放。 那么:怎樣求解這個(gè)博弈?如果雙方都想使自己呆在監(jiān)獄的時(shí)間最短,他們選擇什么戰(zhàn)略是“理性的”?艾爾可能會(huì)做這樣的推理:“兩種事件可能發(fā)生:鮑伯要么坦白要么保持沉默。假定鮑伯坦白,我不坦白的話將被判20年,我也坦白的話則判10年。另一方面,如果鮑伯不坦白,我不坦白我被判刑1年,但在這種情況下,如果我坦白我可以被釋放。無論怎樣,我選擇坦白都是最好的。因此,我將坦白! 但是鮑伯能夠而且大概也將做同樣的推理——因此他們都將坦白并且都在監(jiān)獄呆10年。然而,如果他們“不理性”地行動(dòng),都保持沉默,他們都可以在1年后被釋放。 -----------------------------------------------------------------------------------------------
對(duì)于這個(gè)經(jīng)典案例,很早就有人分析過,博弈論成立的基礎(chǔ)是把別人當(dāng)作傻瓜。那張贏利表是問題的關(guān)鍵:
艾爾 坦白 不坦白 鮑伯 坦白 10,10 0,20 不坦白 20,0 1,1
根據(jù)這張表,我們假設(shè)囚犯會(huì)概率論(盡管這是比較荒唐的),以艾爾為例,可以看到如果選擇坦白一列,可能的結(jié)果是10X50%+0X50%=5年,而不坦白一列,結(jié)果是20X50%+1X50%=10.5年。如果他會(huì)概率論,他就會(huì)選擇坦白?蓡栴}是他如果不會(huì)概率論呢?
又,假設(shè)警察告訴他們的是另一張表:
艾爾 坦白 不坦白 鮑伯 坦白 20,20 0,10 不坦白 10,0 1,1
顯然這時(shí)候兩個(gè)人的選擇都是不坦白,因?yàn)椴惶拱啄且涣械目赡芮艚陻?shù)較少。
因此這張表才是問題的關(guān)鍵,作為會(huì)概率論的罪犯,他們的選擇完全取決于這張表。因此對(duì)于象納什那樣既天真而又會(huì)概率論的囚徒,警察可以任意使用不同的表來獲得自己想要的回答。
但事實(shí)是,這套把戲只能對(duì)付新手。稍微老道一點(diǎn)的囚徒,都會(huì)意識(shí)到這張表是問題的關(guān)鍵,在他們被捕之前,肯定已對(duì)于這張表或者說法律的程序了如指掌,因此無論警察如何套供,肯定是拒不承認(rèn)。這一點(diǎn),可以在眾多香港影片中看到:黑幫被抓之后,都是死不認(rèn)帳,最終獲釋,因?yàn)樗麄兒芮宄桑涸跊]有證據(jù)的情況下,是沒有理由治罪的。
很多問題的關(guān)鍵不在博弈而在于信息優(yōu)勢(shì),信息的多寡和力量的高低才是決定性的。