简单性:认知科学的统一原则?

Nick Chater 等 开智学堂

摘 要

本文是一篇认知科学领域的重要论文。作者是杰出的认知科学家尼克·查特,他过去三十多年致力于探索认知科学的基本原则。

许多感知、学习和高级认知都涉及在数据中寻找模式,但总是有无限多种模式可以与有限的数据相兼容。认知系统如何选择“合理”模式?在认识论、科学哲学以及学习的数学和计算理论中,有一种长期存在的观点认为,模式“应该”根据它们解释数据的简单程度来选择。本文回顾了探索这一观点的研究,即简单性确实驱动着各种认知过程。我们概述了支持这一观点的数学理论、计算结果和实证数据。

作者:Nick Chater,Paul Vitányi 来源:Science Direct,轻舟翻译

认知系统会在其接收到的数据中寻找模式。感知涉及从感官输入寻找外部世界的模式。语言习得涉及从语言输入寻找模式,以确定语言的结构。高级认知涉及从信息中寻找模式、从而形成类别并推断因果关系。

01 简单性和归纳问题

一个基本难题就是所谓的归纳问题:对于任何有限的数据集,都有无限多种兼容的模式(见图 1)。例如,无限多条曲线可以穿过任何有限的点集(图 1a);无限多的符号序列可以与任何符号子序列兼容(图 1b);无限多个语法可以与任何有限的观察到的句子集兼容(图 1c);无限多种感知组织可以适应任何特定的视觉输入(图 1d)。

那么,认知系统依据什么原则来解决归纳问题,从这些无限的可能性中做出选择呢?

任何这样的原则必须满足两个标准:(1)它必须成功解决归纳问题;(2)它必须能够解释认知中的经验数据注1。我们认为,实现 (1) 的最佳方式是选择能够提供最简单数据解释的模式;而这种方法同样为(2)提供了强有力的支持,符合心理学研究的悠久传统。

物理学家和哲学家马赫提出了一个激进的想法:认知系统应该(标准1),并且确实(标准2)更倾向于选择能提供对数据的简单描述的模式。这里,描述必须能够让数据得以重构;而描述的简单程度是通过其长度来衡量的。

马赫的提议可以追溯到奥卡姆剃刀原则,即在解释中不应使实体“超出必要”;也可以追溯到牛顿在《原理》中的声明,即我们“只承认那些既真实又足以解释现象的自然事物的原因,不接受多余的解释”。但要使马赫的提议变得精确,还需要一种描述复杂性的理论,这有待进一步的数学发展。

02 量化简单性

这样的数学发展经历了两个阶段。

首先,香农的信息论证明 log2(1/p) 作为概率为 p 的项目的编码长度是合理的注2。这对于高度重复的数据模式非常有用,这些模式可以分配概率,例如低级感知属性、音素、单词等。

其次,Kolmogorov、Solomonoff 和 Chaitin 对算法信息论的关键概括是通过任何标准(通用)计算机编程语言中 x 的最短程序长度来定义对象 x 的复杂性 K(x)。令人惊讶的是,编程语言的选择在一个加法常数的范围内不影响结果。

此外,算法信息论在适用范围内与香农的信息论非常一致。至关重要的是,简单性的算法定义适用于单个对象,而香农的定义则依赖于将概率与对象相关联。注3

那么,直观地,我们可以看到认知系统的目标是压缩数据:以某种形式对其进行编码,以便可以通过某些可计算的过程来恢复(数学上允许压缩是“有损的”——即,信息可能会被丢弃,但这里不考虑)。

模式之间的选择取决于它们提供的压缩程度——压缩提供了衡量模式证据强度的标准。这一观点在压缩与模式发现之间建立了潜在的联系。请注意,最短的数据编码也提供了最少的冗余表示;消除冗余被视为人类和机器进行模式识别的核心。

更重要的是,形式化的简单性为上述归纳问题提供了候选解决方案。与任何数据集兼容的无限模式并不相等:认知系统应优先选择为数据提供最短编码的模式。

关于上述标准1,有两个重要且优美的数学结果证明了这种选择作为归纳问题解决方案的合理性。其中一个结果是,在相当普遍的条件下,数据的最短编码也是最可能的(基于贝叶斯分析,使用所谓的“通用先验”)。

另一个结果是最短编码可用于预测,并且有很高的概率“收敛”到大体正确的预测。简单性作为有效归纳方法的另一有力理由是它在机器学习和统计学中的广泛应用。

03 简单性作为认知原则

因此,简单性似乎在某种程度上满足了标准1:解释为什么应该根据简单性来选择模式。那么,标准2呢?简单性能否解释认知科学中的经验数据?

表1描述了一系列认知现象模型,涵盖了从低级到高级的视觉感知、语言处理、记忆、相似性判断,以及科学推理中的心理过程。简单性已被证明是认知建模中的一个强大组织原则,在这些领域的广泛应用令人鼓舞。

简单性原则如何经受直接的实证检验?这个问题难以回答,主要有两个原因。

(1) 表征问题:尽管在渐近情况下,并且假设大脑具有通用图灵机的能力,Kolmogorov 复杂度不会因为语言的不同而发生太大改变。但对于许多具体的、非渐近的经验预测,对认知系统如何表征信息的不同假设,会影响我们能够预测或发现哪些规律。注4然而,知觉和语言刺激的心理表征在认知科学中仍存在很大争议。

(2) 搜索问题:认知系统可能倾向于选择它能找到的最简单解释,但可能无法找到感兴趣的简单模式。因此,如果不创建涉及表征假设甚至可能还涉及搜索的完整认知模型,就无法从简单性观点中获得精确预测。

然而,许多证据似乎与简单性观点相符。

  • 知觉组织中的大量现象,包括格式塔的封闭原则、连续原则、共同命运等,被广泛解释为揭示了对简单性的偏好。方框2讨论了若干复杂情况。视觉感知的主要理论替代方案——贝叶斯方法,在数学上与简单性原理密切相关。
  • 具有简单描述的项目通常更容易在噪声中被检测到。
  • 通过计算刺激的编码有多简单,可以衡量出刺激里包含多少有规律的结构。人们在刺激中揭示的结构越多,他们就越容易处理和记住它,且其显得越不随机。
  • 布尔概念(例如,A 或 B 或 C;A 和(B 或 C)等)的学习速度与这些概念的最短编码长度密切相关。
  • 相似性可视为将一种表征转变为另一种表征所需失真简单性的函数。注5这种观点做出的经验预测并未被现有的空间或基于特征的相似性理论所捕捉,但已得到证实。
  • 谢泼德的普遍化法则表明,项目之间的混淆概率是内部“空间”中它们之间距离的负指数函数。注6这一法则可从假设两对象之间的心理相似性是其最简单变换复杂性的函数,以及最小附加假设中推导出。
  • 早期视觉的生理机制,包括感受野形状及侧抑制等现象,似乎旨在最大化视觉信息压缩。另一方面,理论和实证研究均表明,大脑还使用高度冗余的“稀疏”神经编码进行感知输入。注7

总而言之,自马赫以来,许多理论家提出了一个广泛的观点,即认知的大部分涉及压缩或消除冗余。简单性原则已发展为一种数学上严格的方法,用于从数据中发现模式,成为众多认知模型的基础,并且与大量实证数据相符。我们认为,简单性值得追求,作为认知科学许多领域的潜在重要统一原则。

表1:简单性模式发现的研究案例

图片

表1:数学家和计算机科学家运用简单性原理成功解决了许多模式查找问题。在这些领域中,简单性原则也常作为认知建模的起点。

图1:模式发现与归纳问题

图片

1a. 归纳问题的抽象形式:连续情况。

1b. 归纳问题的抽象形式:离散情况。

1c. 语法学习。

1d. 感知:图形补全。

总是有无数的模式与有限的数据集相兼容。这就引出了一个关键问题:认知系统如何从无限的选项中做出适当的选择。

1a 说明了这个一般问题,显然存在任意数量的连续函数可以通过一组数据点。离散数据也面临同样的问题。

1b 左侧交替的黑/白方块表示二进制数据序列。但如 1b 右侧所示,这组数据所属的整体模式可以以任何方式继续下去。“中间”的延续在认知上更为自然。但为什么?这种认知上的自然延续在预测中可靠吗?

1c 将这一问题扩展到从极少量语言数据“语料库”中进行语法归纳。语法1提供了语言上合理的分析;语法2能产生任意的单词序列,显然过于泛化;语法3仅生成语料库中的句子,不做其他扩展。人类学习者偏好合理的分析;但为什么?

最后,1d 展示了针对部分感知输入的无限假设——仅 ii. 得到了认真考虑,尽管 i. 和 iii. 也与数据相符。这些插图相当抽象;但重要的是,即使输入极为丰富,也会出现同样的问题:尽管丰富的输入会排除某些特定模式,但仍然会存在无限多不兼容的模式。

图2:经验数据

图片

感知模糊性的解决过程中的各个定性方面可以用简单性原则来理解。在图 2a-c 中,左侧的图形表示视觉输入,右侧图表示可能的解释。

图 2a 表明,首选的感知组织通常与数据具有较好的拟合(尽管不一定完美)——这里,略微不规则的三角形解释比非常不规则的正方形解释更受青睐。数据拟合良好的模式能够在给定模式的情况下为数据提供较短的编码,并因此符合简单性原则而受到青睐。

图 2b 说明了对简单图案的偏好:2D 直线投影图像比平面上不规则的曲线更受偏好,即使从一个特定角度看,这个不规则曲线也能投影出一个完美的 2D 直线。

图 2c 揭示了视觉编码中精度的重要性。该图说明了人们更倾向于将小椭圆解释为垂直于观察者的平面中的椭圆,而不是一个较大但几何上相似的高度倾斜的椭圆(另一种可能的解释是中等倾斜角度的圆形)。因此,这两种解释在数据拟合和模式复杂性上看起来相同。

那么,简单性原则如何区分这两种椭圆的解释呢?答案是垂直椭圆的投影更加稳定;而对于高度倾斜的椭圆,需要更精确地指定其方向角,从而增加编码长度,才能获得同样良好的数据拟合。

最后,图 2d 表明,更简单的解释通常被认为具有因果意义。右侧的二维图形被视为线立方体的投影,而左侧的图形则被视为不规则的二维图形。

至关重要的是,线立方体的关节被认为是刚性的,可能是因为,如果不是这样,这种“简单”的排列将只是一个极为偶然的巧合(类似地,硬币上连续出现 100 次正面将被解释为硬币有偏差)。因此,可以基于简单性来推断因果结构。

这种定性论证还得到了正式心理学理论的支持,这些理论试图通过最小化编码长度来解释感知图形的解释[a],[b]。 ■

注释

算法信息论和香农信息论侧重点不同。算法信息论可以计算每个对象的复杂度,而香农信息论则依赖于对象的概率分布来计算平均信息量。

非渐近是指在有限的数据量或较短的时间内的表现。在这种情况下,数据还不够充分,随机性和偶然性可能会对结果产生很大影响,系统的行为未必会符合理论上的稳定状态。例如只抛三次硬币,可能全部正面朝上。

侧向抑制指的是当一个神经元被激活时,它会抑制周围相邻神经元的活动。这种机制的主要作用是增加对比度,当你看到一幅有亮暗对比的图片时,侧向抑制会使得亮的地方看起来更亮,暗的地方看起来更暗,让大脑更清晰地分辨物体的轮廓和形状,去掉不重要的细节信息,保留主要的特征,从而实现“信息压缩”。