生活的博弈中,如何胜出?

李亮 开智学堂

开智君说

生活处处充满博弈,你是否能察觉到呢?又是否知道什么是博弈论?它有哪些经典问题?又该如何在博弈中获得最大收益?下文,作者李亮为你分析博弈论的种种问题,希望对你有所启发~

作者:李亮 来源:原创 图源:Unsplash

我可以计算天体运行的轨迹,却计算不出疯狂的人性。

——艾萨克·牛顿

这是牛顿在股市中损失惨重后写下的日记。1720 年,英国初创的股票交易市场是让人大赚的完美时机。当时,物价极其不稳定,任何可以预测期货价格的人都能够赚得盆满钵满。

作为牛顿物理学和微积分的共同发明者,牛顿绝对算得上是那个时代的天才,而且是那种精于计算,精于分析的天才。所以理所当然,他认为凭借自己的分析能力,他可以在股票市场大赚一笔,其他人,也十分相信。

但最终的结果,却出乎所有人的预料,牛顿是这场泡沫中损失最惨重的人之一。在当时的物价下,200 英镑就足以让一个中产阶级家庭舒舒服服的过上一年,牛顿损失了 10000 英镑——相当于普通中产家庭 50 年的消费总合。

为何一个如此天才的科学家和数学家,却在股市中一败涂地?这和博弈论之间的关系是什么?生活的博弈中,又该如何胜出呢?这就是本篇文章中想要和你探讨的问题。

图片

01 什么是博弈论?

20 世纪 40 年代,正值二次世界大战,各个大国间开展了激烈的博弈,同时,整个欧洲商业市场也开始从分散向集中演化,各个企业之间的直接竞争日益加剧。就在这样的背景下,博弈论(Game Theory)诞生了。

1944 年,电子计算机的发明者,数学家约翰·冯·诺伊曼(John von Neumann)与经济学家奥斯卡·摩根斯特恩(Oskar Morgenstern)合著《博弈论和经济行为》一书中,正式提出了现代系统的博弈理论。因此,冯·诺依曼也被后人称作「博弈论之父」。

那么,博弈论到底是什么呢?博弈论诞生之后,受到广泛欢迎,在经济学、政治学、社会学、管理学、生物学、计算机科学等学科领域中都有应用,在不同学科中的定义也不尽相同。所以本文中对其做了不严谨的简化,权作抛砖引玉之用。

简单来说,如果一件事物的结果,并不仅仅取决于某一个个体的行为和选择,而是涉及两方或多方的选择和行为,那么这就属于博弈论研究的问题。

像文章开头提到的那个案例,就是牛顿没有把股市看作是一个多方选择和行为的共同结果,而是使用了看待天体和数学那样的静态视角,做出错误的判断。

图片

举个例子,《三国演义》中曹操败走华容道的故事,就可以看做经典的博弈问题。

赤壁之战,曹操一败涂地,率残余部队逃命的过程中,来到了一个分叉口,面前有两条道路,其中一条名为华容道。他见华容道烟雾缭绕,分明是有人点火。

但曹操大笑道:「诸葛亮以为这样就能骗我走另一条道吗?我才不上当呢」于是率兵进入华容道,正好与驻守在那里的关羽部队,撞个正着。原来,诸葛亮心知曹操生性多疑,所以故意用这样的方式,引诱曹操上当。

这个案例中,无论是曹操还是诸葛亮,都并非将对方看作是一个静态的事物,而是充分算到了对方的反应,然后利用对方的反应,做出了相应的判断,最终的结果,是双方共同作用导致的。这,就是我们今天要探讨的博弈论。

02 博弈论的经典案例——囚徒困境

谈博弈论,就必须要讲讲最经典的,也是被研究最多的「囚徒困境」问题。

囚徒困境(Prisoner’s Dilemma)是博弈论中表示非零和博弈中具代表性的例子,反映了个人的最佳选择却并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往会导致集体的非理性。

经典的囚徒困境是这样的:警方逮捕了两名罪犯,按照目前罪名,他们的刑期是 5 年。不过,警方充分的理由相信,这两个人做了更恶劣的事情,刑期可以长达 20 年。

于是警方将两个人单独关押,分别对他们说:「如果你俩都认罪,那么根据法律,你们都会被判 10 年,但如果你抵赖,而另一个房间的那个家伙招供的话,你会因为欺骗被判 20 年,而他因为表现良好,只判 5 年。不过,如果你愿意配合,而那边不配合的话,那么减刑的就是你了。」

如果你是这个囚犯,你会做出什么样的选择呢?我们不妨用一个矩阵来描述这场博弈。

图片

囚徒困境问题是普林斯顿大学数学家阿尔伯特·W. 塔克(Albert Tucker)于1950 年提出。

经过大量学者的努力,这个问题可以抽出一个模型,即拥有以下两个特点的任何博弈都可以定义为囚徒困境:

1)每位博弈者都有占优策略,就是说,无论对方如何选择,己方的选择中,总有一个是最优的。(每位犯人的占优策略就是认罪。)

2)而如果所有博弈者都采用占优策略,与都不采用相比,结果更差。(两位犯人都坦白各判 10 年,两人都不坦白各判 5 年。)

现实世界中,许多重要又纠结的博弈都属于囚徒困境,比如商家的价格战。

假设在一个小镇上,有两家超市,你经营着其中一家,你们都可以选择是否通过降价来吸引顾客。你和另一家超市的降价问题,就符合囚徒困境的特点:

1)无论对方是否降价,你降价都是符合占优策略;

2)如果两家都降价,那么盈利状况比两家都不降价要少。

这种「你降价就会少赚钱」,「但你不降价而如果对方降价的话,那么客人都被他抢走了」的情况,你会怎么做呢?

图片

03 破解囚徒困境

圣经有云「太阳底下无新鲜事」,我们遇到的问题,绝大部分都是别人已经解决过的,所以如果你不太清楚上文的问题如何解决,不妨想想身边的案例——你所在当地的超市是如何解决这个问题的呢?

在当地超市中,你或许见过类似这样的标语:「5 公里内,如果有相同商品价格更低,那么本超市赔付双倍差价。」这其实就是破解上文中囚徒困境的一个妙招。

一定的范围内,人们的去向总是价格最优的。所以超市打出这样的标语就意味着:如果有其他商家私下降价,那么一定范围内的人们为了获得两倍差价的补偿,就都会去打出标语的超市买东西。对于其他超市而言,一旦私下降价,不仅赚的少,而且顾客还会流失。所以这样的价格战就这样避免了。

当然,现实生活中,超市还是不时会有促销活动,还是会降价,这是为什么呢?这是因为,现实世界,并不仅有一次囚徒困境。

我们的生活是在一次次的囚徒困境中进行,竞争与合作反复上演。这在博弈论中称作重复囚徒困境。这种情形中,博弈反复地进行,因而每个参与者都有机会去「惩罚」另一个参与者前一回合的「不合作」行为。

比如对方超市为了获得更多的顾客,宁愿利益受损也要降价,暂时赢了一局;你十分气愤,所以也开启了为期一周的降价,又把顾客吸引了过来。这样来来回回,不断竞争,最后发现,赚的钱都在竞争中消耗完了。怎么办呢?

聪明的你一定已经想到了,合并或结盟是一个好方法。两家好好坐下来,商定一个停火协议,共同约定一个价格,双方一起开拓这个市场。当然,这样的行为最后还是让顾客买单,所以为了保护购买者,国家会出台《反垄断法》,让市场恢复公平竞争。

图片

那,合作如果不行的话,有什还么样的策略可以解决这样的问题呢?答案是「一报还一报」。

20 世纪 70 年代,政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)发起了一轮特殊的比赛,邀请世界一流的研究博弈论的科学家,让参赛者每人提交一份方案,教计算机如何代表其本人参加重复囚徒困境,目标是最大化多轮博弈后的整体收益。14 名学者应邀参加。

竞赛的结果令人大跌眼镜:胜利者是所有提交策略中最简单的一个策略——「一报还一报」。

这个策略是这样的,「一开始信任对方,按照约定的来做,如果对方背叛,那么你也立即背叛,如果对方要求和好,那么也立即和好。」也就是说,除了初始的时候是和对方约定好一个行动外,此后,在每个下一轮的博弈中模仿对方上一轮的行为。

这个结果出乎很多人的意料,所以在公布第一轮比赛结果的情况下,阿克塞尔罗德又进行了第二次的实验,结果还是「一报还一报」获胜!

阿克塞尔罗德后来在著作《合作的进化》中总结了该方案的四个特性,即:

1)只要对方合作你就合作,以避免不必要的冲突;

2)面对他人的无理背叛你是可以激怒的;

3)在给挑衅以反击之后你是宽容的;

4)行为要简单清晰,使对方能适应你的行为模式。

这四个特性,转化成行动指南的话,就是:首先信任,在第一回合采取合作;然后不首先背叛,但当对方背叛的时候,一定要在下一回合用背叛回应对方的背叛;最后要宽宏大量,只要对手选择继续合作,那么就回到合作状态。

采用这样的策略,你将在重复囚徒困境的博弈中,获得最大收益。

图片

04 小结

美国第一位获得诺贝尔经济学奖的大师保罗·萨缪尔森(Paul Anthony Samuelson)说过:

「博弈让人们懂得如何应对这个纷繁多变的环境。要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解。」

如果本文可以起到帮助你「大致了解」的功能,那么就太好了,如果还可以让你产生一点兴趣,用博弈论的思想去思考日常生活当中的合作与竞争,那么就更好了。

毕竟,人们每天都面临着各种各样的囚徒困境,而博弈论给人的最大启示或许是:如果我们每个人都去追求自己的最大利益,那么最终的结果是所有人的利益都将受损。