阳志平：理性思维超越人类？GPT-4真正大杀八方的是这项能力

阳志平开智学堂

作者：阳志平来源：公众号「心智工具箱」

背景

GPT-4 正式推出，如果我们将它想象成一个人，那么，这位朋友性格如何呢？是一个外向的人还是一个内向的人？是一个容易发脾气的人还是一个情绪稳定的人？是男性化的人还是女性化的人？

同样，它的智商、理商与情商如何呢？于是，我组织了一个小团队，发起了一个有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念，更科学的称呼正是「社会情绪能力」。

当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力，我们是不是可以将这些指标综合在一起，形成一个「类人指数」，来描述大语言模型目前与人类的相似性与相异性。

而今天这份小小的报告，正是本项目的一部分早期工作。在本报告中，我们重点比较了两个大语言模型：GPT-3.5 与 GPT-4 在人类理性思维测验任务上的表现。需要指出的是，本报告仅仅是一个早期工作，并不完善。

测试流程

如何科学客观地评定大语言模型的理性思维？先来看看人类的理性思维。它源自人类社会漫长的试错，借助于文化习俗等等，人类建立了一套道德规范与广义理性。人类不仅追求将事情做完，还追求将事情做好。

可以说，正是理性思维，才使得人之所以成为人。

目前评定人类理性思维，有很多手段，在本报告中，我重点使用了四类经典测试任务。

第一类：语义错觉类任务。它是一些这样的题目：*摩西在方舟上带了多少种动物？*然而，熟悉西方文化的人都明白，是诺亚方舟，而非摩西方舟。因此，它也称之为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。

第二类：认知反射类任务。它是一些这样的题目：一只球棒和一只球的价格是 1.10 美元。球棒的价格比球高 1 美元。那么，球的价格是多少？

很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰，而是深思熟虑后做出答复。

第三类：证伪选择类任务。它重点考察人们是否能看到证伪假设的能力。这类任务在认知科学中，最著名的莫过于「沃森四色卡片实验」。同样，我们也拿这个来考察 AI。

第四类：心智程序类任务。前三类任务往往和人类的认知吝啬鬼倾向先天有关系。但是，我们人类理性思维的高低还会受到后天教育的影响。学习某些学科必然提高一个人的理性思维。我总结为典型的三大类：概率论与统计学知识、临床医学与实验心理学知识、金融与经济学知识等等。

从我们团队以及其他类似研究的题库中，我们总计抽取了 28 道题目。然后分别使用 GPT-3.5 与 GPT-4 两大模型测试。

更严谨的做法，应该是使用中英文双语版，以及测试更多场景、更多题目、更多大语言模型。

但，作为一个早期工作，我们快速报告最关键的结论：GPT-4 在人类理性思维测验上的表现是 GPT-3.5 的一倍，并且超过受过高等教育的人类水准。

需要提醒的是，这个结论未来随时可能被修正、被推翻。各位读者请理解。

现在，跟着我一一来看一下具体测试结果。

语义错觉类任务

在语义错觉类任务这里，我们挑选了 4 个任务。测试结果如下图所示：

案例分析：

第一题：

两个模型回答都不太对，1 月 31 日不是春节。可见，模型语料对于日期这种类型的语义识别和理解还不够。出现了与事实相悖的虚假答案。

后三题，两个模型回答都是对的，但 GPT-4 会先指出错误，再进行解释，整体逻辑明显更清晰。

需要指出的是，在斯坦福大学认知科学家 Michal Kosinski 2022 年对 GPT-3.5 的测试中，后三道题目均回答错误。可以说，GPT-3.5 与 GPT-4 都在快速学习，尤其是错过的题目，经提问者提示正确答案后，可能不会再次答错。

认知反射类任务

在认知反射类任务这里，我们挑选了三类任务。

直觉减法操作

第一类任务会触发一个快速的直觉减法操作，然而它是错误的。测试结果如下图所示：

案例分析：

对于第一类任务来说，GPT-4 相较于 GPT-3.5 而言，解答数学代数方程的能力明显更强。

第一题答案对比：

两个模型都答对了，GPT-4 罗列了严谨的解方程过程。而 GPT-3.5 的答案使用了许多文字表达，不够简洁。

第二题答案对比：

GPT-3.5 对于此类计算题，经常会陷入混乱，得不出答案。GPT-4 推理计算过程依旧简洁清晰。

直觉序列操作

第二类任务会触发一个快速的直觉序列操作，然而它是错误的。测试结果如下图所示：

案例分析：

第一题答案对比：

GPT-3.5 的回答前后矛盾，感觉数理逻辑很差。

GP-4 回答清晰简洁，同时还给出了前提条件「根据你给出的简化情景，我们可以这样分析」，表达非常严谨。

直觉除法操作

第三类任务会诱发被试产生一个快速的直觉除法操作，然而它是错误的。测试结果如下图所示：

案例分析：

第一题答案对比：

对于第三类任务， GPT-3.5 经过了复杂的数学计算才得出答案，而 GPT-4 的推理过程更符合人类思考的直觉，快速且简洁。

需要指出的是，这些题目对于绝大多数人类来说，都很难，一般都会答错。人类的正确率大约在 41.3%，跟瞎蒙差不多。

证伪选择类任务

在这里，我选择了经典的沃森四色卡片测验。这是一个对于人类来说，超级困难的题目。能够很好地完成这项任务，意味着这个人的理性思维能力很不错。

同样，对于 AI 来说，也是同等困难。

不同的人输入同样的 prompt，得出的结果不一致，两个模型均无法真正理解此项任务。GTP-4 好不少。

需要提醒的是，目前我们使用的依然是 Text2Text 的测试方法，在 GPT-4 API 开放之后，使用图片测试，可能结论会略有不同。

心智程序类任务

这部分，我挑选了九道题目。这九道题目，是一个更庞大的人类理性思维测验中的一部分。

这九道题目，相对来说较有代表性，代表了人类理性思维知识的方方面面，能够较好地区分理性思维低下与理性思维较高的人。

两个模型测试结果，如下图所示：

人类被试测试结果如下：

按照年龄分组为：

这些统计数据来自 253 位人类。他们普遍受过高等教育，不少拥有硕博学历，属于较为典型的高学历高收入高认知群体。

不幸的是，他们的成绩之前可以吊打 GPT-3.5，如今却被 GPT-4 反超。

幸运的则是，无论 GPT-3.5，还是 GPT-4，在时间贴现类任务上，无能无力。

也就是说，只要涉及预测未来这类任务，那么，目前的 GPT-4 表现依然较弱，多数时候是拒绝回答。

小结

有点忧伤又有点高兴。

忧伤的是，人类学习了那么多理性思维相关的知识，然而还是不如 AI 的进化速度快。更因为理性思维消耗大脑能量较多，我们宁愿选择非理性行为。

高兴的是，GPT-4 表现了卓越的理性思维能力，也许会比那些狂热而愚蠢的人类更适合很多工种、任务。

如今人类相对 AI 来说，至少还拥有证伪与预测未来的能力。虽然多数人类的证伪能力并不到位，同样，多数人类是盲目而乐观地预测。

被人类限定的 AI 暂时没法对自己生成或拥有的知识进行「实质性」的证伪；同样只拥有回顾过去、总结经验的能力。只是，这种近似于「机器人三原则」的人为锁定，还能保护我们人类多久？■