旅行者困境
外觀
博弈論中,旅行者困境是一種非零和博弈,博弈雙方都為了讓自己收益最大化,而不考慮對方收益。
該博弈是1994年由印度經濟學家考希克·巴蘇教授(Kaushik Basu)提出,博弈情形如下[1][2]:
- 航空公司丟失了兩位互相不認識乘客的旅行包。兩個旅行包正好都是一樣的,並且裏面有相同價值的古董,兩位乘客都向航空公司索賠1000美元。為了評估出古董的真實價值,公司經理將兩位乘客分開以避免兩人合謀,分別讓他們寫下古董的價值,其金額必須是整數,而且要不低於300美元,並且不高於1000美元。同時還告訴兩人:如果兩個數字是一樣的,那麼會被認為是其真實價值,他們能獲得相應金額的賠償。如果數字不一樣,較小的會被認為是真實價值,而兩人在獲得這個金額的同時有相應的獎賞/懲罰:寫下較小金額的會獲得10美元額外的獎勵,較大的會有10美元的懲罰。現在問題在於:兩位旅行者應該用什麼策略來決定他們應該寫下的金額?
如果兩位旅行者的收益變成兩個整數的選擇,比如528美元和743美元,那麼旅行者困境在數學上就等同囚徒困境,所以可以被看作是囚徒困境的延伸。該困境還和猜均值的2/3博弈相似,為了得到納殊均衡,兩個博弈都涉及到了迭代去除佔優策略,並且實驗結果與博弈論的預測都嚴重不相符合。
博弈論認為,如果兩個人是理性人,那麼他們會都寫300美元,這個結果是該博弈的納殊均衡。然而,實驗中大多數測試者都會選擇1000美元,或者接近1000美元。他們也清楚自己並沒有認真思考這個情況,選擇了非理性的結果。並且,旅行者們會因為在博弈中嚴重偏離納殊均衡而獲得比理性行為高很多的收益。該實驗既沒有證明大多數人都是完全理性人,也沒有證明他們如果選擇理性行為就能獲得更多收益。這個困境讓人們對博弈論產生了懷疑,與此同時,有人建議需要有一種新的解釋,來幫助理解如何來完全理性的作出非理性選擇。
收益矩陣
[編輯]一個典型的收益矩陣如下(僅考慮整數):
1000 | 999 | 998 | 997 | ⋯ | 301 | 300 | |
---|---|---|---|---|---|---|---|
1000 | 1000, 1000 | 989, 1009 | 988, 1008 | 987, 1007 | ⋯ | 291, 311 | 290, 310 |
999 | 1009, 989 | 999, 999 | 988, 1008 | 987, 1007 | ⋯ | 291, 311 | 290, 310 |
998 | 1008, 988 | 1008, 988 | 998, 998 | 987, 1007 | ⋯ | 291, 311 | 290, 310 |
997 | 1007, 987 | 1007, 987 | 1007, 987 | 997, 997 | ⋯ | 291, 311 | 290, 310 |
⋮ | ⋮ | ⋮ | ⋮ | ⋮ | ⋱ | ⋮ | ⋮ |
301 | 311, 291 | 311, 291 | 311, 291 | 311, 291 | ⋯ | 301, 301 | 290, 310 |
300 | 310, 290 | 310, 290 | 310, 290 | 310, 290 | ⋯ | 310, 290 | 300, 300 |
參考文獻
[編輯]- ^ Kaushik Basu, "The Traveler's Dilemma: Paradoxes of Rationality in Game Theory"; American Economic Review, Vol. 84, No. 2, pages 391-395; May 1994.
- ^ Kaushik Basu,"The Traveler's Dilemma" (頁面存檔備份,存於互聯網檔案館); Scientific American Magazine, June 2007