阳志平:理性思维超越人类?GPT-4真正大杀八方的是这项能力
阳志平 开智学堂
作者:阳志平 来源:公众号「心智工具箱」
背景
GPT-4 正式推出,如果我们将它想象成一个人,那么,这位朋友性格如何呢?是一个外向的人还是一个内向的人?是一个容易发脾气的人还是一个情绪稳定的人?是男性化的人还是女性化的人?
同样,它的智商、理商与情商如何呢?于是,我组织了一个小团队,发起了一个有趣的项目「大语言模型的人格、智商、理商与社会情绪能力」。其中的社会情绪能力正是大众关心的「情商」。然而心理学界普遍并不承认情商这一概念,更科学的称呼正是「社会情绪能力」。
当我们能够清晰地描绘一个大语言模型的人格、智商、理商与社会情绪能力,我们是不是可以将这些指标综合在一起,形成一个「类人指数」,来描述大语言模型目前与人类的相似性与相异性。
而今天这份小小的报告,正是本项目的一部分早期工作。在本报告中,我们重点比较了两个大语言模型:GPT-3.5 与 GPT-4 在人类理性思维测验任务上的表现。需要指出的是,本报告仅仅是一个早期工作,并不完善。
测试流程
如何科学客观地评定大语言模型的理性思维?先来看看人类的理性思维。它源自人类社会漫长的试错,借助于文化习俗等等,人类建立了一套道德规范与广义理性。人类不仅追求将事情做完,还追求将事情做好。
可以说,正是理性思维,才使得人之所以成为人。
目前评定人类理性思维,有很多手段,在本报告中,我重点使用了四类经典测试任务。
第一类:语义错觉类任务。它是一些这样的题目:*摩西在方舟上带了多少种动物?*然而,熟悉西方文化的人都明白,是诺亚方舟,而非摩西方舟。因此,它也称之为摩西幻觉。它重点考查的是人们是否能够很清晰地区分真实知识与虚假知识。
第二类:认知反射类任务。它是一些这样的题目:一只球棒和一只球的价格是 1.10 美元。球棒的价格比球高 1 美元。那么,球的价格是多少?
很多人会第一时间答错。它重点考查的是人们能否不受直觉干扰,而是深思熟虑后做出答复。
第三类:证伪选择类任务。它重点考察人们是否能看到证伪假设的能力。这类任务在认知科学中,最著名的莫过于「沃森四色卡片实验」。同样,我们也拿这个来考察 AI。
第四类:心智程序类任务。前三类任务往往和人类的认知吝啬鬼倾向先天有关系。但是,我们人类理性思维的高低还会受到后天教育的影响。学习某些学科必然提高一个人的理性思维。我总结为典型的三大类:概率论与统计学知识、临床医学与实验心理学知识、金融与经济学知识等等。
从我们团队以及其他类似研究的题库中,我们总计抽取了 28 道题目。然后分别使用 GPT-3.5 与 GPT-4 两大模型测试。
更严谨的做法,应该是使用中英文双语版,以及测试更多场景、更多题目、更多大语言模型。
但,作为一个早期工作,我们快速报告最关键的结论:GPT-4 在人类理性思维测验上的表现是 GPT-3.5 的一倍,并且超过受过高等教育的人类水准。
需要提醒的是,这个结论未来随时可能被修正、被推翻。各位读者请理解。
现在,跟着我一一来看一下具体测试结果。
语义错觉类任务
在语义错觉类任务这里,我们挑选了 4 个任务。测试结果如下图所示:
案例分析:
第一题:
两个模型回答都不太对,1 月 31 日不是春节。可见,模型语料对于日期这种类型的语义识别和理解还不够。出现了与事实相悖的虚假答案。
后三题,两个模型回答都是对的,但 GPT-4 会先指出错误,再进行解释,整体逻辑明显更清晰。
需要指出的是,在斯坦福大学认知科学家 Michal Kosinski 2022 年对 GPT-3.5 的测试中,后三道题目均回答错误。可以说,GPT-3.5 与 GPT-4 都在快速学习,尤其是错过的题目,经提问者提示正确答案后,可能不会再次答错。
认知反射类任务
在认知反射类任务这里,我们挑选了三类任务。
直觉减法操作
第一类任务会触发一个快速的直觉减法操作,然而它是错误的。测试结果如下图所示:
案例分析:
对于第一类任务来说,GPT-4 相较于 GPT-3.5 而言,解答数学代数方程的能力明显更强。
第一题答案对比:
两个模型都答对了,GPT-4 罗列了严谨的解方程过程。而 GPT-3.5 的答案使用了许多文字表达,不够简洁。
第二题答案对比:
GPT-3.5 对于此类计算题,经常会陷入混乱,得不出答案。GPT-4 推理计算过程依旧简洁清晰。
直觉序列操作
第二类任务会触发一个快速的直觉序列操作,然而它是错误的。测试结果如下图所示:
案例分析:
第一题答案对比:
GPT-3.5 的回答前后矛盾,感觉数理逻辑很差。
GP-4 回答清晰简洁,同时还给出了前提条件「根据你给出的简化情景,我们可以这样分析」,表达非常严谨。
直觉除法操作
第三类任务会诱发被试产生一个快速的直觉除法操作,然而它是错误的。测试结果如下图所示:
案例分析:
第一题答案对比:
对于第三类任务, GPT-3.5 经过了复杂的数学计算才得出答案,而 GPT-4 的推理过程更符合人类思考的直觉,快速且简洁。
需要指出的是,这些题目对于绝大多数人类来说,都很难,一般都会答错。人类的正确率大约在 41.3%,跟瞎蒙差不多。
证伪选择类任务
在这里,我选择了经典的沃森四色卡片测验。这是一个对于人类来说,超级困难的题目。能够很好地完成这项任务,意味着这个人的理性思维能力很不错。
同样,对于 AI 来说,也是同等困难。
不同的人输入同样的 prompt,得出的结果不一致,两个模型均无法真正理解此项任务。GTP-4 好不少。
需要提醒的是,目前我们使用的依然是 Text2Text 的测试方法,在 GPT-4 API 开放之后,使用图片测试,可能结论会略有不同。
心智程序类任务
这部分,我挑选了九道题目。这九道题目,是一个更庞大的人类理性思维测验中的一部分。
这九道题目,相对来说较有代表性,代表了人类理性思维知识的方方面面,能够较好地区分理性思维低下与理性思维较高的人。
两个模型测试结果,如下图所示:
人类被试测试结果如下:
按照年龄分组为:
这些统计数据来自 253 位人类。他们普遍受过高等教育,不少拥有硕博学历,属于较为典型的高学历高收入高认知群体。
不幸的是,他们的成绩之前可以吊打 GPT-3.5,如今却被 GPT-4 反超。
幸运的则是,无论 GPT-3.5,还是 GPT-4,在时间贴现类任务上,无能无力。
也就是说,只要涉及预测未来这类任务,那么,目前的 GPT-4 表现依然较弱,多数时候是拒绝回答。
小结
有点忧伤又有点高兴。
忧伤的是,人类学习了那么多理性思维相关的知识,然而还是不如 AI 的进化速度快。更因为理性思维消耗大脑能量较多,我们宁愿选择非理性行为。
高兴的是,GPT-4 表现了卓越的理性思维能力,也许会比那些狂热而愚蠢的人类更适合很多工种、任务。
如今人类相对 AI 来说,至少还拥有证伪与预测未来的能力。虽然多数人类的证伪能力并不到位,同样,多数人类是盲目而乐观地预测。
被人类限定的 AI 暂时没法对自己生成或拥有的知识进行「实质性」的证伪;同样只拥有回顾过去、总结经验的能力。只是,这种近似于「机器人三原则」的人为锁定,还能保护我们人类多久?■