生活的博弈中，如何胜出？

李亮开智学堂

开智君说

生活处处充满博弈，你是否能察觉到呢？又是否知道什么是博弈论？它有哪些经典问题？又该如何在博弈中获得最大收益？下文，作者李亮为你分析博弈论的种种问题，希望对你有所启发~

作者：李亮来源：原创图源：Unsplash

我可以计算天体运行的轨迹，却计算不出疯狂的人性。

——艾萨克·牛顿

这是牛顿在股市中损失惨重后写下的日记。1720 年，英国初创的股票交易市场是让人大赚的完美时机。当时，物价极其不稳定，任何可以预测期货价格的人都能够赚得盆满钵满。

作为牛顿物理学和微积分的共同发明者，牛顿绝对算得上是那个时代的天才，而且是那种精于计算，精于分析的天才。所以理所当然，他认为凭借自己的分析能力，他可以在股票市场大赚一笔，其他人，也十分相信。

但最终的结果，却出乎所有人的预料，牛顿是这场泡沫中损失最惨重的人之一。在当时的物价下，200 英镑就足以让一个中产阶级家庭舒舒服服的过上一年，牛顿损失了 10000 英镑——相当于普通中产家庭 50 年的消费总合。

为何一个如此天才的科学家和数学家，却在股市中一败涂地？这和博弈论之间的关系是什么？生活的博弈中，又该如何胜出呢？这就是本篇文章中想要和你探讨的问题。

01 什么是博弈论？

20 世纪 40 年代，正值二次世界大战，各个大国间开展了激烈的博弈，同时，整个欧洲商业市场也开始从分散向集中演化，各个企业之间的直接竞争日益加剧。就在这样的背景下，博弈论（Game Theory）诞生了。

1944 年，电子计算机的发明者，数学家约翰·冯·诺伊曼（John von Neumann）与经济学家奥斯卡·摩根斯特恩（Oskar Morgenstern）合著《博弈论和经济行为》一书中，正式提出了现代系统的博弈理论。因此，冯·诺依曼也被后人称作「博弈论之父」。

那么，博弈论到底是什么呢？博弈论诞生之后，受到广泛欢迎，在经济学、政治学、社会学、管理学、生物学、计算机科学等学科领域中都有应用，在不同学科中的定义也不尽相同。所以本文中对其做了不严谨的简化，权作抛砖引玉之用。

简单来说，如果一件事物的结果，并不仅仅取决于某一个个体的行为和选择，而是涉及两方或多方的选择和行为，那么这就属于博弈论研究的问题。

像文章开头提到的那个案例，就是牛顿没有把股市看作是一个多方选择和行为的共同结果，而是使用了看待天体和数学那样的静态视角，做出错误的判断。

举个例子，《三国演义》中曹操败走华容道的故事，就可以看做经典的博弈问题。

赤壁之战，曹操一败涂地，率残余部队逃命的过程中，来到了一个分叉口，面前有两条道路，其中一条名为华容道。他见华容道烟雾缭绕，分明是有人点火。

但曹操大笑道：「诸葛亮以为这样就能骗我走另一条道吗？我才不上当呢」于是率兵进入华容道，正好与驻守在那里的关羽部队，撞个正着。原来，诸葛亮心知曹操生性多疑，所以故意用这样的方式，引诱曹操上当。

这个案例中，无论是曹操还是诸葛亮，都并非将对方看作是一个静态的事物，而是充分算到了对方的反应，然后利用对方的反应，做出了相应的判断，最终的结果，是双方共同作用导致的。这，就是我们今天要探讨的博弈论。

02 博弈论的经典案例——囚徒困境

谈博弈论，就必须要讲讲最经典的，也是被研究最多的「囚徒困境」问题。

囚徒困境（Prisoner’s Dilemma）是博弈论中表示非零和博弈中具代表性的例子，反映了个人的最佳选择却并非团体最佳选择。或者说在一个群体中，个人做出理性选择却往往会导致集体的非理性。

经典的囚徒困境是这样的：警方逮捕了两名罪犯，按照目前罪名，他们的刑期是 5 年。不过，警方充分的理由相信，这两个人做了更恶劣的事情，刑期可以长达 20 年。

于是警方将两个人单独关押，分别对他们说：「如果你俩都认罪，那么根据法律，你们都会被判 10 年，但如果你抵赖，而另一个房间的那个家伙招供的话，你会因为欺骗被判 20 年，而他因为表现良好，只判 5 年。不过，如果你愿意配合，而那边不配合的话，那么减刑的就是你了。」

如果你是这个囚犯，你会做出什么样的选择呢？我们不妨用一个矩阵来描述这场博弈。

囚徒困境问题是普林斯顿大学数学家阿尔伯特·W. 塔克（Albert Tucker）于1950 年提出。

经过大量学者的努力，这个问题可以抽出一个模型，即拥有以下两个特点的任何博弈都可以定义为囚徒困境：

1）每位博弈者都有占优策略，就是说，无论对方如何选择，己方的选择中，总有一个是最优的。（每位犯人的占优策略就是认罪。）

2）而如果所有博弈者都采用占优策略，与都不采用相比，结果更差。（两位犯人都坦白各判 10 年，两人都不坦白各判 5 年。）

现实世界中，许多重要又纠结的博弈都属于囚徒困境，比如商家的价格战。

假设在一个小镇上，有两家超市，你经营着其中一家，你们都可以选择是否通过降价来吸引顾客。你和另一家超市的降价问题，就符合囚徒困境的特点：

1）无论对方是否降价，你降价都是符合占优策略；

2）如果两家都降价，那么盈利状况比两家都不降价要少。

这种「你降价就会少赚钱」，「但你不降价而如果对方降价的话，那么客人都被他抢走了」的情况，你会怎么做呢？

03 破解囚徒困境

圣经有云「太阳底下无新鲜事」，我们遇到的问题，绝大部分都是别人已经解决过的，所以如果你不太清楚上文的问题如何解决，不妨想想身边的案例——你所在当地的超市是如何解决这个问题的呢？

在当地超市中，你或许见过类似这样的标语：「5 公里内，如果有相同商品价格更低，那么本超市赔付双倍差价。」这其实就是破解上文中囚徒困境的一个妙招。

一定的范围内，人们的去向总是价格最优的。所以超市打出这样的标语就意味着：如果有其他商家私下降价，那么一定范围内的人们为了获得两倍差价的补偿，就都会去打出标语的超市买东西。对于其他超市而言，一旦私下降价，不仅赚的少，而且顾客还会流失。所以这样的价格战就这样避免了。

当然，现实生活中，超市还是不时会有促销活动，还是会降价，这是为什么呢？这是因为，现实世界，并不仅有一次囚徒困境。

我们的生活是在一次次的囚徒困境中进行，竞争与合作反复上演。这在博弈论中称作重复囚徒困境。这种情形中，博弈反复地进行，因而每个参与者都有机会去「惩罚」另一个参与者前一回合的「不合作」行为。

比如对方超市为了获得更多的顾客，宁愿利益受损也要降价，暂时赢了一局；你十分气愤，所以也开启了为期一周的降价，又把顾客吸引了过来。这样来来回回，不断竞争，最后发现，赚的钱都在竞争中消耗完了。怎么办呢？

聪明的你一定已经想到了，合并或结盟是一个好方法。两家好好坐下来，商定一个停火协议，共同约定一个价格，双方一起开拓这个市场。当然，这样的行为最后还是让顾客买单，所以为了保护购买者，国家会出台《反垄断法》，让市场恢复公平竞争。

那，合作如果不行的话，有什还么样的策略可以解决这样的问题呢？答案是「一报还一报」。

20 世纪 70 年代，政治学家罗伯特·阿克塞尔罗德（Robert Axelrod）发起了一轮特殊的比赛，邀请世界一流的研究博弈论的科学家，让参赛者每人提交一份方案，教计算机如何代表其本人参加重复囚徒困境，目标是最大化多轮博弈后的整体收益。14 名学者应邀参加。

竞赛的结果令人大跌眼镜：胜利者是所有提交策略中最简单的一个策略——「一报还一报」。

这个策略是这样的，「一开始信任对方，按照约定的来做，如果对方背叛，那么你也立即背叛，如果对方要求和好，那么也立即和好。」也就是说，除了初始的时候是和对方约定好一个行动外，此后，在每个下一轮的博弈中模仿对方上一轮的行为。

这个结果出乎很多人的意料，所以在公布第一轮比赛结果的情况下，阿克塞尔罗德又进行了第二次的实验，结果还是「一报还一报」获胜！

阿克塞尔罗德后来在著作《合作的进化》中总结了该方案的四个特性，即：

1）只要对方合作你就合作，以避免不必要的冲突；

2）面对他人的无理背叛你是可以激怒的；

3）在给挑衅以反击之后你是宽容的；

4）行为要简单清晰，使对方能适应你的行为模式。

这四个特性，转化成行动指南的话，就是：首先信任，在第一回合采取合作；然后不首先背叛，但当对方背叛的时候，一定要在下一回合用背叛回应对方的背叛；最后要宽宏大量，只要对手选择继续合作，那么就回到合作状态。

采用这样的策略，你将在重复囚徒困境的博弈中，获得最大收益。

04 小结

美国第一位获得诺贝尔经济学奖的大师保罗·萨缪尔森（Paul Anthony Samuelson）说过：

「博弈让人们懂得如何应对这个纷繁多变的环境。要想在现代社会做一个有文化的人，你必须对博弈论有一个大致了解。」

如果本文可以起到帮助你「大致了解」的功能，那么就太好了，如果还可以让你产生一点兴趣，用博弈论的思想去思考日常生活当中的合作与竞争，那么就更好了。

毕竟，人们每天都面临着各种各样的囚徒困境，而博弈论给人的最大启示或许是：如果我们每个人都去追求自己的最大利益，那么最终的结果是所有人的利益都将受损。■