信任的進化是一個博弈論游戲,那么這些博弈論是什么,他們各自的博弈原理又是什么?今天蕾米為大家?guī)硇湃蔚倪M化博弈論,信任的進化博弈原理解析,一起來了解一下游戲背后的哲理吧!
最高分49分 | 最低分7分 | 博弈原理解析 | 網(wǎng)頁版在線玩 |
?罪犯困境
這是本游戲的基本博弈模型,對此最經(jīng)典的闡述為:兩個嫌疑犯作案后被警察抓住,分別關(guān)在不同的屋子里接受審訊。警察知道兩人有罪,但缺乏足夠的證據(jù)。警察告訴每個人:如果兩人都抵賴,各判刑一年;如果兩人都招供,各判八年;如果兩人中一個招供而另一個抵賴,坦白的放出去,抵賴的判十年。于是,每個囚徒都面臨兩種選擇:招供或抵賴。然而,不管同伙選擇什么,每個囚徒的最優(yōu)選擇是招供:如果同伙抵賴、自己招供的話放出去,抵賴的話判一年,招供比不招供好;如果同伙招供、自己也招供的話判八年,比起抵賴的判十年,招供還是比抵賴的好。結(jié)果,兩個嫌疑犯都選擇招供,各判刑八年。
就像這個游戲機一樣,當你投一個硬幣進去,對方就會得到兩枚硬幣。顯然,對于總體來說,選擇合作得到的回報最高(每人失去1個,得到2個,總和4,增加2個),但對個人而言風險也是最大的(對方選擇欺騙,你-1,對方3,總和2),所以在這種局面下,欺騙變成了最優(yōu)策略。這樣的局面,歸根到底,是因為雙方缺乏溝通而導(dǎo)致的。在無法信賴對手的一局游戲中,欺詐師往往會成為最后的贏家。有意思的是,囚徒困境推廣到確定的N局游戲中也是成立的。原因如下:對于第N局,由于不用擔心之后被報復(fù)(最后一局了嘛),最優(yōu)策略顯然是欺騙。對于第N-1局,由于已經(jīng)知道了對方下一局的最優(yōu)策略是欺騙,為了防止受到更多損失,最優(yōu)策略顯然也是欺騙。對于第N-2局,……所以,對于確定的N局游戲,最優(yōu)策略永遠是欺騙。
?重復(fù)困境
這個升級版的囚徒困境源于一個全世界的重復(fù)囚徒困境競賽(也是這個游戲的來源)。在這個競賽中,許多博弈論專家將自己的策略編寫成程序,和其它程序進行博弈(沒錯,游戲里的策略是其中的一些)?經(jīng)過很多很多輪競賽后,出人意料的是,最佳確定性策略被認為是“以牙還牙”,這是阿納托爾·拉波波特(Anatol Rapoport,《合作的進化》作者,也是競賽的發(fā)起人)開發(fā)并運用到錦標賽中的方法。這個策略只不過是在博弈的開頭選擇合作,然后,采取對手前一回合的策略。
在完美的博弈中,復(fù)讀機是最有效的。這種策略較好地規(guī)避了被欺騙的風險(被騙了還是要漲點記性),而對于合作者,顯然雙方都能獲得較高的利潤。而對于有可能失誤的博弈(玩家準備合作,但是由于各種不可控因素造成背叛的結(jié)果),更好些的策略是“寬恕地以牙還牙”,即當你的對手背叛,在下一回合中你無論如何要以小概率(大約是1%~5%)時而合作一下。這是考慮到偶爾要從循環(huán)背叛的受騙中復(fù)原。至于更自由的博弈(可以選擇對手),比較好的策略是:前幾局選擇合作進行試探,被多次欺騙后不再與此對手博弈(排擠掉欺詐師)
最終,博弈學家統(tǒng)計所有策略得到這樣一個結(jié)論:最好的策略滿足四個因素:友善,報復(fù),寬容,不嫉妒。簡單來說,表露合作的意向(讓潛在的合作者與你合作),不盲目樂觀(避免一直被欺詐師欺騙),適當包容小的失誤(防止因誤會導(dǎo)致的互相不信任),不追求比對手更高的得分(更高意味著惡性競爭)。因此,一些學者們據(jù)此得到一種給人以烏托邦印象的結(jié)論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒,即人人為我的社會可能建立在對利益的追求上。
事實上,囚徒困境并不是那么簡單,復(fù)讀機也并不總是最終的贏家。在短期博弈上,最有效的往往是欺騙。?在背叛的回報更高時,欺騙往往能獲得最終勝利。?在失誤率過高時,結(jié)果趨于混沌。
全部評論