囚徒困境模型問世以來,引起了人們無盡的興趣。羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了經典囚徒困境情景的一個擴展,并把它稱作“重復的囚徒困境”。與原型略有不同的是采用正分激勵:
每一局有0,1,3,5四種得分,分別命名為——雙方合作獎勵:3,3;雙方背叛懲罰:1,1;背叛的誘惑:5;笨蛋的收獲:0。
阿克塞爾羅德邀請全世界的學術同行來設計計算機策略,每個策略與其它策略逐個對局,看看哪個策略總體表現(xiàn)最好。令人驚訝的是:勝利者是所有提交策略中最簡單的——首先在第一步合作,然后就模仿對手上一步的策略,我們稱它為“一報還一報”。第二輪競賽有更多的參賽者,他們也知道第一輪優(yōu)勝者的策略,結果獲勝的依舊是“一報還一報”。
通過分析兩輪競賽中的高分策略,可以總結出成功者的幾個特征:
1,友善
最重要的條件是策略必須“友善”,就是說,不要在對手背叛之前先背叛。絕大部分高分策略都是友善的。
2,報復
成功的策略必須不是一個盲目樂觀者,要容易被激怒,立刻報復。有些采用“兩報還一報”的策略雖然表現(xiàn)也不錯,依然沒能勝過“一報還一報”。愚善是一個非常糟糕的選擇,因為“小人”策略將殘酷地剝削這樣的傻瓜。
3,寬容
在給對手的背叛行為予以報復之后,如果對手不繼續(xù)背叛,就可以退回到合作。只要對手背叛一次,就報復到底的“記仇”策略是不會獲得成功的。
4,不耍小聰明
復雜的策略并沒有表現(xiàn)得比簡單的策略更好。一些試圖占便宜的“老謀深算”策略在碰到愚善策略時會得逞,但在與其它對手打交道時經常會遭致報復而得不到高分。
5,不嫉妒
因為不首先背叛,所以在任何一組對局當中都不可能獲得比對手更高的分數(shù)!耙粓筮一報”策略不是靠打擊對手來獲勝,而是通過誘導雙方的合作行為來獲得雙贏,戰(zhàn)勝其他不合作的策略。
經濟學的理性人假設并沒有錯,競爭的最終目的仍然是為了自己能夠獲勝!耙粓筮一報”表現(xiàn)出這樣一種智慧:雖然沒有贏得過任何一場戰(zhàn)役,卻贏得整個戰(zhàn)爭。
這碗雞湯著實有點濃。這還不算完,阿克塞爾羅德將游戲設定成可以傳宗接代——設定一個策略的拷貝(后代)數(shù)量與它的競賽得分成正比——來模擬適者生存的自然演化過程。
模擬出來的結果非常有趣!靶∪恕背跗谶能跟得上大部隊,隨著“愚善者”的滅絕,“小人”在“一報還一報”的包圍中也迅速消亡。
如果起始條件非常惡劣,在一個遍布“小人”的社群中,單獨的“一報還一報”也無法生存,但是“一報還一報”對單個“小人”的劣勢有限,最多只輸1分。即使只有一個小的友善群體,哪怕只占總數(shù)的5%,“一報還一報”也可以通過找到合作慢慢壯大,而且這個過程不可逆。
正義終將戰(zhàn)勝邪惡,這結論真是鼓舞人心。難怪理查德.道金斯在為該書撰寫的序言中聲稱:《合作的進化》值得取代圣經。