友情提示：如果本网页打开太慢或显示不完整，请尝试鼠标右键“刷新”本网页！阅读过程发现任何错误请告诉我们，谢谢！！报告错误

博弈游戏-第章

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

　　参赛者提出了各种程序，但是大致可分为“善良的”、“邪恶的”和“随意的”三类，竞赛的结果也许有些出人意料：“善良”即“以合作为主”的策略大获全胜，而“邪恶”即“以占便宜为主”的策略成绩不佳。

　　现在考虑一个双方对局的例子。一个对策者采用的策略是每一步都背叛，即“总是背叛”，另一个对策者采用的策略是“一报还一报”，即在第一步合作，然后就采用对方上一步的选择。“一报还一报”意味着在对方每一次背叛之后就背叛一次。当对方采用“一报还一报”时，采用“总是背叛”的对策者，将在第一局得到收益，在而后的对局中都得到相应的回击。这样，这个背叛者只是在第一局得到5分，而在以后的每局都只能得到1分，最终他可能会“战胜”对手，但由于总分仍然很低，而被淘汰出局。

　　你可能忍不住要问：“什么是最好的策略？”换句话说，什么策略能使对策者得到可能的最高分？这个问题问得很好。但是就像以后要说明的一样，独立于对方所用策略之外的最好决策规则是不存在的。从这个意义上说，“囚徒困境”完全不同于一般游戏，如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步，这种假定是这类游戏的基础。然而在这里，游戏者的利益并不是完全冲突的。双方可以通过合作而得到“对合作的奖励”R，也可以通过背叛而得到“对背叛的惩罚”P。如果你假定对方总是走你最担忧的一步，那么，你就会认为其他人总是不合作，这就会使你也不合作，最后招来无休止的惩罚。所以与下棋不同，在“囚徒困境”中假定对方一心要赢你是不可靠的。

　　事实上，在“囚徒困境”中表现最好的策略直接取决于对方采用的策略，特别是取决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步相对于当前一步的权重足够大，即未来是重要的。总的来说，如果你认为今后将难以与对方相遇，如果你不太关心自己未来的利益，那么，你现在最好是背叛，而不用担心未来的后果。

　　这样，我们得到了第一个正式的结论，但却是一个令人伤心的结论，即：如果未来是重要的，就不存在最优策略。

　　启示：好莱坞大片《肖申克的救赎》是一部很好看的电影，主要内容是一个被冤屈的囚犯如何凭着坚定的信念和聪明才智逃出牢房。我们的“囚犯”也可以通过好的策略合作，摆脱“困境”的诅咒。

　　“一报还一报”的伟大胜利

　　区分善良规则好坏的一个特征是，看它们如何迅速地和可靠地对来自对方的挑战作出反应。一个规则可以被称为“报复性的”，如果它在对方的背叛之后立即以背叛报复。除非一个策略能迅速反应来自对方的挑战，否则，对方将简单地从这样一个好说话的策略身上获得越来越多的好处。

　　在比赛中，有好几个规则故意使用若干次背叛，试试看它们能否讨到便宜。因此，很大程度上决定善良规则的最后名次的是它们能否很好地应付这些挑战。

　　对付这类挑战性规则的最好办法是时刻准备报复来自对方“无缘无故”的背叛。因此，善良能得到好处，报复也能得到好处。“一报还一报”综合了这些优点，它是善良的、宽容的和具报复性的。它从不首先背叛，但是不管过去相处的关系如何好，它总能被一个背叛所激怒，而迅速作出反应。

　　生态分析的结果说明了“一报还一报”的又一个胜利。在最初的竞赛中“一报还一报”领先一点点，而且在整个生态模拟过程中一直保持领先。到了第1000代，它是最成功的规则，并且比任何一个其他规则都增长得快。

　　“一报还一报”的所有记录是令人难忘的。概括地说，“一报还一报”是62个参赛者中平均得分最高的规则。在竞赛的生态模拟中它一直保持领先。加上它在实验室的对策实验中的良好表现，“一报还一报”显然是一个非常成功的策略。

　　“一报还一报”的成功可以说明的是它是一个很具适应性的规则：即它在很大范围的环境中表现极佳。它的成功部分是由于其他规则预料到它的存在并且被设计得与它很好相处。要和“一报还一报”很好相处就要和它合作，这反过来就帮助了“一报还一报”。即使那些被设计成伺机占便宜而不被惩罚的规则，也很快向“一报还一报”道歉。任何想占“一报还一报”便宜的规则最终将伤害自己。“一报还一报”从自己的不可欺负性得到好处，是因为以下三个条件得到了满足：1。遇到“一报还一报”的可能性是显著的；2。一旦相遇，“一报还一报”很容易被识别出来；3。一旦被识别出来，其不可欺负性就显示出来。因此，“一报还一报”从它自己的清晰性中得到好处。

　　另一方面，“一报还一报”放弃了占他人便宜的可能性。这种机会有时是很有利可图的，但是试图占便宜而引来的问题也多种多样。首先，如果一个规则用背叛试探是否可以占便宜，它就得冒被那些可激怒的规则报复的风险。第二，双方的反击一旦开始，就很难自己解脱。

　　“一报还一报”的稳定成功的原因是它综合了善良性、报复性、宽容性和清晰性。它的善良性防止它陷入不必要的麻烦，它的报复性使对方试着背叛一次后就不敢再背叛，它的宽容性有助于重新恢复合作。它的清晰性使它容易被对方理解，从而引出长期的合作。

　　启示：一报还一报能够赢得竞赛不是靠打击对方，而是靠从对方引出使双方都有好处的行为。

　　你不必每次都赢

　　虽然预见对于合作的进化不是必要的，但它却对我们很有帮助。因此在这里将分别对参与者和改革者提供建议。

　　下面为那些处于“囚徒困境”的人提供建议。从个体的眼光看，目标是在与对手的一系列对局中尽可能地得高分。由于这个游戏是“囚徒困境”，参与者会受到背叛的短期诱惑，但是通过与对方建立双方合作的模式可以得到更多的长期好处。对计算机竞赛的分析和理论研究的结果，为我们提供了一些有用的信息，即在不同的条件下什么样的策略会起作用和为什么这些策略能表现得好。这一章就是把这些发现转化成对参与者的建议。

　　在持续的“重复囚徒困境”中应如何表现，下面是四个简单的建议：

　　1。不要嫉妒

　　人们习惯于考虑零和对局，在这种情况下，一个人赢，另一个就输。一个很好的例子就是下棋比赛。为了能赢，一个参赛者必须在大部分时间里比对手做得更好。白棋赢黑棋就输。

　　然而生活中的大多数情况都是非零和的。双方可以都做得很好，也可以都做得很差。双方的合作是可能的，但并不是总能实现。这就是为什么“囚徒困境”是各种各样的日常情形的有用模型。

　　人们倾向于采用相对的标准，这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒，嫉妒导致企图抵消对方已经得到的优势。在“囚徒困境”的形式下，抵消对方优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

　　要求自己比对方做得好不是一个很好的标准，除非你的目的是消灭对方。在大多数情况下，这个目的是不可能实现的。

　　“一报还一报”由于与其他多种多样策略相处得很好而赢得了竞赛。平均来说，它比竞赛中的其他任何策略都做得更好。但是“一报还一报”从来没有一次在游戏中比对方得更多的分！事实上，它不可能比对方多得分。它总是让对方先背叛，并且它的背叛次数决不比对方背叛的多。因此“一报还一报”不是得到和对方一样多的分，就是比对方略少。“一报还一报”赢得竞赛不是靠打击对方，而是靠从对方引出使双方有好处的行为。“一报还一报”如此坚持引出双方有利的结果，从而使它获得比其他任何策略更高的总分。

　　因此在一个非零和的世界里，你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。因为在长时间的“重复囚徒困境”中，其他人的成功是你自己成功的前提。

　　在生意场中也是这样，一个从供应商那儿买来东西的公司期望供方和买方都有好处的成

返回目录上一页下一页回到顶部赞（0）踩（0）

未阅读完？加入书签已便下次继续阅读！

温馨提示：温看小说的同时发表评论，说出自己的看法和其它小伙伴们分享也不错哦！发表书评还可以获得积分和经验奖励，认真写原创书评被采纳为精评可以获得大量金币、积分和经验奖励哦！