囚徒理论 囚徒理论最优解
纳什的“囚徒理论”,地球人读懂了吗
纳什是博弈论的开创者。
作为理性的个体,我们每个人都有自己的利益,都在追求自己的幸福。这是天性使然,没有什么力量能够改变。但社会的进步只能来自人们之间的相互合作,只有合作,才能带来共赢,才能给每个人带来幸福。这就是我们应有的集体理性。但是,基于个体理性的决策常常与集体理性相冲突,导致所谓“囚徒困境”的出现,不利于所有人的幸福。
除了个体利益之外,妨碍人与人合作的另一个重要原因是我们的知识有限。即使到今天,尽管人类有关自然规律的知识已大大增加,真正做到了“可上九天揽月,可下五洋捉鳖”,但我们有关人类自身的知识仍然不足以让我们明白什么是追求幸福的最佳途径。让普通人接受自然科学的知识相对容易,但接受社会科学的知识很难。
当然,每一次合作带来的进步,都伴随新的囚徒困境的出现。比如互联网为人类提供了更大范围合作的空间,但互联网也为坑蒙拐骗行为提供了新的机会。一部人类文明史就是一部不断创造囚徒困境,又不断走出囚徒困境的历史。
什么叫囚徒理论?
囚徒困境悖论是一个非零和游戏,它反映了看起来很合理的个人行为与合作所得的利益间的矛盾,在一个短期看起来有利的策略却可能带来长期的错误的情况。这个问题的本质是在一个不知道其他的参赛者期望他们做什么的情况下,每一个个体参赛者都会期望获取最大的利益而不考虑别人的利益——亦即是说,参赛者是一个“利己主义者”。这个悖论揭示了这样一个矛盾 如果每个人都这样做,他们会冒著的倒闭与他人合作而得到的比他们期望得到的要少的利益。
这个问题的关键是,对於一个囚徒来说,合作在利己主义者之间是否可以形成 也就是,一个只对自己利益感兴趣的人,在经过一段时间的学习后可否意识到他们的利益通过合作可以得到更多。
经典的囚徒困境悖论
一个经典的囚徒困境悖论如下
两个嫌疑犯被警察抓获。由於警察没有足够的证据控告他们,所以他们对被分开在两个处所的嫌疑犯提供同样一笔交易 如果你承认罪行,而你的同夥保持沉默,他将被判处10年监禁,而你可以马上获得自由;如果他承认罪行,而你保持沉默,你将被判处10年监禁,而他则可以马上获释。但是如果你们两个都保持沉默,我们只能判处你们6个月的监禁。如果你们两个人都认罪,你们每人将得到5年的监禁。
这个问题可以总结为
你拒绝 你承认
他拒绝 每人6个月监禁 他被判处10年监禁,你可以马上自由
他承认 他可以马上自由,你被判处10年监禁 每人5年的监禁
让我们假设每一个囚犯都是完全自私自利的人,他们的目标都是尽量减少自己的刑期。作为一个囚犯,你有两个选择 与同伴合作保持沉默,或自首并被判你的同伴。但是每一个选择的决定由取决於你的同夥的选择;但是很遗憾的事,你不知道你同夥的选择。即使你知道了他的选择,你也不能保证相信他。
如果你预料你的同夥会选择合作并保持沉默,对你来说,最佳的选择是认罪,这意味著你可以马上获释,而你的同夥将被判处10年的监禁。如果你预料你的同夥会认罪,你最好的选择将是同是认罪,因为这样你可以避免10年的监禁并把监禁期减少到5年,而你的同夥也将同样得到5年的监禁期。但是如果你们两个都决定合作并保持沉默,则两个人都可以在6个月后获释。
从自私自利的角度出发,选择认罪是最好的这种说法是有缺陷的,因为两个人都可能会得到5年的监禁期。即使是最狡猾的方法也不能把你救出监狱。但是如果你期望你的同夥与你合作,那你最好的选择将是认罪。然而,如果你的同夥知道了你的计划,他也会认罪,此时最好的方法是你们两个合作。这就是这个悖论的关键所在。
如果从整体来看,对於两个囚犯而言,最好的结果是两人合作,因为这将使得两人的总体囚禁期减少到1年。其他的任何选择都是不好的。对於其它与这个悖论相类的矩阵来说,从整体的角度出发,个人私利并不总是最好的。
80
囚徒理论是是什么专业学的
一般来说,学习心理学、经济学、政治学、市场营销、广告学等,都可以学习到这方面知识。
囚徒困境原理是个人理性和集体理性之间存在矛盾,个人理性的正确选择会降低大家的福利囚徒困境的定义 博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。
囚徒理论
就像GAME THEORY 博弈论中经典的纳什均衡(Nash equilibrium)中的囚徒悖论(Prisoner Dillemma如下图) 一样。
事实上当这两名犯人互保才会有最大的正收益,相互出卖检举只会导致彼此都坐牢的双输局面。那么这个案例上告诉我们,搞死你的邻居,笑你的邻居抄作业,可能后面你也要获得同样的结局。因此要么双赢要么双输。
博弈论告诉我们,永远不要嘲笑你的敌人,因为很可能你也输了。