博弈论(1)-囚徒困境 & 对称协调博弈
2010-09-05 16:44阅读:
博弈论(1)
耶鲁大学的开放课程真是让我眼界大开,今天上了博弈论的第一节课,讲到了两个案例:囚徒困境和协调博弈
1、囚徒困境
引用维基百科上的解释如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
- 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
- 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
- 若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:
|
甲沉默(合作) |
甲认罪(背叛) |
| 乙沉默(合作) |
二人同服刑半年 |
甲即时获释;乙服刑10年 |
| 乙认罪(背叛) |
甲服刑10年;乙即时获释 |
二人同服刑2年 |
SPAN> 如同
博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
- 若对方沉默、我背叛会让我获释,所以会选择背叛。
- 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的
支配性策略。因此,这场博弈中唯一可能达到的
纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。
这场博弈的纳什均衡,显然不是顾及团体利益的
帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的
个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判监均比合作为高,总体利益较合作为低。这就是“困境”所在。例子华丽地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
http://zh.wikipedia.org/zh-cn/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83
2、协调博弈
表:交通博弈
协调博弈的最为经典的弈局出现在“交通博弈”中。下表中的
收益矩阵给出了一个交通博弈的
收益分布。观察该
矩阵可以发现:该矩阵有三个纳什均衡,即(靠左,靠左)、(靠右,靠右)以及一个靠左和靠右各占50%概率的混合动机策略均衡。因此,只要给定对方的选择,参与者就没有激励偏离均衡策略;或者即使不给定对方的策略,参与者也只能通过协调来实现均衡。
显然,在这种博弈中,每个参与者的策略问题是:他希望和他的对手就策略选择进行“协调”,因为不管是否给定对手的策略,协调的结果总是最好的。森在1967年的论文
[3]中,将一个协调博弈称为“信心博弈”。他指出,协调博弈与
囚徒困境博弈刚好相反,每个参与者选择策略A或B,仅仅需要确信对方也会相应地选择A或B。他们不像
合作博弈那样需要一个有约束力的契约之类的东西,而是更需要在彼此之间确立一种相互信任的信心。
如果我们考虑将上述关于交通的协调博弈扩展为,(1)在固定参与者之间进行的
重复博弈,或(2)在特定的群体系统内部非固定参与者之间进行的超博弈,那么就不难想象,与其每次出现时都去尝试解决这个博弈,远不如在行为人之间建立起某种行为或惯例的稳定的均衡模式,进而使得参与人在此后遇到类似问题时都可以加以遵循,而不需要反复支付
信息成本和
交易成本。但协调博弈的一个问题在于,均衡解具有不确定性和多样性,因此哪种均衡的规则将被选择具有随机特征。因此,在习俗层面上讲,协调博弈的均衡规则是多样的。但不管怎样,只要相应的一种行为模式被广泛接受,并被自觉遵从,就会形成习俗或自发秩序,并且有助于包括参与者在内的所有
群体成员,避免类似弈局中无效率的非均衡收益。
http://en.wikipedia.org/wiki/Coordination_problem