詹姆斯·马奇:如何在探索和利用间寻找平衡?

詹姆斯·马奇 开智学堂

开智君说

开智阳志平老师说过:人生多数时候是在两种模式之间交错:探索和利用。应该怎么做呢?下文中,管理大师詹姆斯·马奇从决策角度,为你讲解为什么决策者往往陷于加速探索或加速利用的怪圈里,以及如何在探索和利用间寻找平衡。希望能给你一些启发。

作者:詹姆斯·马奇 来源:《决策是如何产生的》

图片詹姆斯·马奇(James G. March)

01 探索和利用

在路径依赖的曲折历史中,适应性智慧关注的一个焦点是探索新的可能性和利用已有的确定性之间的关系。

探索包含通过搜寻、变更、承担风险、试验、运行、灵活性、发展和创新等术语获得的一些东西。利用包含诸如提炼、选择、生产、效率、选举、贯彻、实施之类的一些事情。

在对备选的投资和战略进行决策计算的过程中,可以发现在探索和利用之间进行的显性选择,而隐性选择经常隐藏在决策规则和风俗习惯的诸多特征里。

比如,在积累和降低宽裕的程序里、在搜寻规则和惯例里、在目标的确定和变动方式中以及激励制度里,都隐藏着各种隐性选择。

在理性选择模型里,探索和利用之间的关系是理性搜寻理论的基础。必须在这两者之间做出选择:

获得备选方案的新信息从而提高未来收益(这意味着把部分投资运用于在不确定的备选方案中进行搜寻);利用当前可用的信息来提高当期收益(这意味着把投资集中在明显最佳的方案上)。

由于新的投资方案可能出现、概率分布可能不够稳定,或者说它们可能取决于别人做出的选择,这些可能性使问题变得复杂。

在有限理性理论里,对探索和利用的讨论强调的是目标在规制风险承担和搜寻配置方面的作用。通常假定:如果最受欢迎的方案超出(但仍比较靠近)目标的话,风险承担和搜寻都将受到抑制。

另一方面,如果最受欢迎的已知方案低于目标的话,风险承担和搜寻都将得到激励。由于目标能起到这样的作用,因此,在有限理性传统中对风险和搜索的讨论强调,愿望本身所具有的适应性特征具有重要意义。

在规则的学习和选择模型里,对探索和利用的讨论被构架在变异和选择这对孪生过程的框架里。淘汰低级的形式、常规或惯例对于生存至关重要,但产生新一代的备选惯例也同样重要,尤其是在不断变化的环境中。

由于环境复杂性、决策多样性和竞争优势之间相互联系,任何决策过程的效率都对在实践中所体现的探索变动速度和环境的变动速度之间的关系相当敏感。

比如,有人认为,如果把垃圾桶决策过程与传统理性的选择效率结合起来,那么垃圾桶决策过程在组织中的长期存在就与它在一个相对不稳定的环境中所提供的多样化优势相关。

02 寻找平衡

普通经验告诉人们,社会制度在利用已知事物的过程中经常会遭遇失败。对创造力、新思想和变革的热情使得决策者对于确保下水管道畅通、电话有人接听以及后勤工作管理井井有条等方面很懒散。

对探索的颂扬模糊了这样的事实:大多数的新思想都是糟糕的,大多数的变革都是有害的,大多数原创性发明都不值得做出努力把它们生产出来。

只包含探索而排除利用的决策体系有可能发现自己承担了实验成本却没有得到多少收获。这些决策体系展示了过多未被开发的新思想,却几乎没有展示自己与众不同的能力。

相反,只包含利用而不包括探索的体系有可能发现自己无法发现和开发新的能力和新的机会。在变化多端的社会中,这两个体系都很可能变得一无是处。

由于从探索和利用这两个选项中所获得的收益不仅和它们当前的期望值有关,而且还与它们的可变性、时机及在组织内、外部的分布有关,因此,人们更加难以理解如何在这两者之间进行选择以及如何改善两者之间的平衡。

所以,在探索和利用之间配置资源的过程既体现了风险偏好,又体现了不同时期、不同制度和人与人之间的比较。

进行这些比较困难重重,这也使确定适当的利弊权衡并进行取舍变得更为复杂。

由于在一个相互包含的体系中,同样的问题会发生在不同的层面,如个体层面、组织层面以及社会体制层面,因此,确定适当的平衡就显得尤其困难。

决策者往往陷于加速探索或加速利用的怪圈里,这一动态趋势使得达到一个合理水平变得非常困难。

一方面,探索可能成为一个陷阱。

如果失败往往导致探索,而探索又往往导致失败,决策者就会陷入探索怪圈:不断尝试新东西,却未用足够的时间利用某项创新以获得收益,而利用创新的经历是使创新产生成效所必需的。

如果决策过程引起了一系列未经充分利用的试验,那么,要改善决策就要通过干涉行为来抑制探索。

另一方面,利用也可能成为陷阱。

利用的本质在于完善和拓展现有的能力、技术和范式。利用的收益是正的,在时间和空间上都比较接近,并且是可预测的。

探索的本质是采用新的备选方案进行试验,其收益是不确定的、在时间和空间上相距较远,而且通常是负的。利用策略会产生对局部有利结果,而且利用策略有可能逐步主导那些对全局有利但不利于局部的探索策略。

这并非偶然,而是由于两者的确切性不同,两者的影响在时间和空间上的距离远近不同所导致的。

利用导致的这些陷阱并非源于愚蠢而是源自于学习。通过改进标准范式、传统信息和既定方法而使能力得以完善和提高,由此而产生的局部收益是非常明显的。

然而,决策者在运用现有技术、信息、常规、形式或策略方面的能力越来越强的同时,他们越来越不愿意或者越来越无法做出改变接受那些能够提供较长期优势的新事物,他们越来越适应这种处于劣势的实践。

从这个意义上至少可以看出,适应具有自我毁灭性。当适应性过程使人们运用现有程序的能力越来越强时,就需要那些保护或鼓励探索的干涉措施来改善适应过程。

03 利用信息

决策过程需要利用信息,例如,理性包括对当前行动的未来结果以及该结果出现时的未来偏好进行预期。

利用信息来预测结果并确定对结果的偏好的能力是至关重要的,同样,遵循规则的行动要求对过去的适应性是一致的。

规则和程序对经验的适应包括从历史事件中形成对世界的推论。利用信息来进行有效推论的能力也是不可或缺的。

信息是一种社会建构,它在社会制度中产生并得以证实。社会制度使信息兼具有效性和可靠性的特点。

所谓有效性是指它正确地描绘了现实,而所谓可靠性是指它能够在有知识的人中得到共享和复制;而且,社会的研究和教育制度还维持着一些可以用来证实信息的规则。

这些规则以及在这些规则与社会制度融合之后,信息就难以被单方操纵,任何个体或小团体都无法轻易去规定人们该相信什么。

另一方面,信息又是不断变化的。凡读过任何领域里 50 年前的专著的人都可以证实这样一种常见的情况:某一时期的信息在另一个时期就会成为无知和偏见。

这种变化主要是由于旧的信息和对它的新挑战之间存在的紧张对立所造成的,而且会以一种信息从来不会远离社会共识的方式不断变化着。

为了把信息转化成有效的行动,决策者常常试图亲自参与到形成和传播信息的社会进程中。他们时常会犯一些错误或者被误导,也可能会对有些事物一无所知或一知半解。

信息难以琢磨,运用信息也往往困难重重,但通常看来,信息带来的收益会使我们感觉到追求信息是值得的。另外,通过提高从经验中和他人那里获得信息的方法和技巧,可以降低获得信息和运用信息的难度。■

文章摘录自:詹姆斯 G. 马奇(James G. March)《决策是如何产生的》(珍藏版),机械工业出版社出版。