博弈论(1)-囚徒困境 & 对称协调博弈

2010-09-05 16:44阅读：

http://blog.sina.cn/dpool/blog/u/1745425670

博弈论（1）
耶鲁大学的开放课程真是让我眼界大开，今天上了博弈论的第一节课，讲到了两个案例：囚徒困境和协调博弈
1、囚徒困境
引用维基百科上的解释如下：

警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人有罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：

若一人认罪并作证检控对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。
若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。
若二人都互相检举（互相“背叛”），则二人同样判监2年。

用表格概述如下：

	甲沉默（合作）	甲认罪（背叛）
乙沉默（合作）	二人同服刑半年	甲即时获释；乙服刑10年
乙认罪（背叛）	甲服刑10年；乙即时获释	二人同服刑2年

SPAN> 如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：

若对方沉默、我背叛会让我获释，所以会选择背叛。
若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。
这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判监均比合作为高，总体利益较合作为低。这就是“困境”所在。例子华丽地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。
http://zh.wikipedia.org/zh-cn/%E5%9B%9A%E5%BE%92%E5%9B%B0%E5%A2%83

2、协调博弈
　　表：交通博弈
　　协调博弈的最为经典的弈局出现在“交通博弈”中。下表中的收益矩阵给出了一个交通博弈的收益分布。观察该矩阵可以发现：该矩阵有三个纳什均衡，即（靠左，靠左）、（靠右，靠右）以及一个靠左和靠右各占50％概率的混合动机策略均衡。因此，只要给定对方的选择，参与者就没有激励偏离均衡策略；或者即使不给定对方的策略，参与者也只能通过协调来实现均衡。
　　显然，在这种博弈中，每个参与者的策略问题是：他希望和他的对手就策略选择进行“协调”，因为不管是否给定对手的策略，协调的结果总是最好的。森在1967年的论文^[3]中，将一个协调博弈称为“信心博弈”。他指出，协调博弈与囚徒困境博弈刚好相反，每个参与者选择策略A或B，仅仅需要确信对方也会相应地选择A或B。他们不像合作博弈那样需要一个有约束力的契约之类的东西，而是更需要在彼此之间确立一种相互信任的信心。
　　如果我们考虑将上述关于交通的协调博弈扩展为，（1）在固定参与者之间进行的重复博弈，或（2）在特定的群体系统内部非固定参与者之间进行的超博弈，那么就不难想象，与其每次出现时都去尝试解决这个博弈，远不如在行为人之间建立起某种行为或惯例的稳定的均衡模式，进而使得参与人在此后遇到类似问题时都可以加以遵循，而不需要反复支付信息成本和交易成本。但协调博弈的一个问题在于，均衡解具有不确定性和多样性，因此哪种均衡的规则将被选择具有随机特征。因此，在习俗层面上讲，协调博弈的均衡规则是多样的。但不管怎样，只要相应的一种行为模式被广泛接受，并被自觉遵从，就会形成习俗或自发秩序，并且有助于包括参与者在内的所有群体成员，避免类似弈局中无效率的非均衡收益。

http://en.wikipedia.org/wiki/Coordination_problem

举报/Report

我的更多文章

下载客户端阅读体验更佳