金晶：靠谱的大五人格和不靠谱的MBTI

金晶开智学堂

开智君说

说到人格测量，你会想到什么？手相、星座，还是性格色彩学、MBTI，或者大五人格？科学、靠谱的人格测量理论到底是什么？如何才能更好地了解自己？阅读下文，工业组织心理学博士金晶为你详解~

作者：金晶来源：原创

一个电视相亲节目《非诚勿扰》红了「心理专家」乐嘉和他的性格色彩学。连 HR 姐姐都深深迷恋这一套，面试一定要你测 MBTI，企业培训要测测你是老虎还是孔雀，更有些互联网公司面试先问你星座血型。

有些人就很纳闷了，我只是来面试的，你们城里人玩这么多花样是搞什么鬼？真的准确吗？

Tell me about myself——人人都想借助这些手段更好的了解自己，但是这些工具是否靠谱呢？

01 心理学家怎么测量你的性格

主流的人格心理学理论流派是什么？

今天我们所讲的人格，是 personality，也就是大家平时所说的性格。但是除了 personality 以外，人和人之间的差别还包括兴趣（interests）、价值观（values）等，心理学家称这些概念为个体差异（individual difference）。

这些个体差异决定着我们对外界有怎样个性化的反应，也常常是别人给我们贴的「标签」，影响着我们在别人眼里的样子。

心理学家花了近一个世纪的时间尝试各种各样的假设、提出各种各样的学说和测量方式，对人和人之间的差异进行了系统的研究。并将其形成了心理学的一个领域，即人格心理学。

1937 年，心理学家 Gordon Allport 就试图对人和人之间的差异进行系统的研究。可是经过将近一个世纪的研究，心理学家对于人格的定义还是没有统一，主要分为以下几个学说：

1、特质说

认为人格大体上具有跨情境一致性（cross-situational consistency），认为有一种内部行为倾向来指导人们的行为，使其具有稳定性、一致性、和可预测性。

2、情境说

认为人们的行为主要受环境影响，并不存在这种背后的稳定特质来指导人们的行为。

3、交互学说

这是个骑墙派。早期 Kurt Lewin 提出了一个数学公式：B=f(P, E)，即人们的行为是由人和环境两个变量组成的方程，是受到人和环境的交互作用的影响的。从交互学说的角度来看，人既具有对环境的选择性，同时也会被环境所影响。

4、认知-情境系统理论

假设人格是这个黑匣子，里面包括编码、调节、预期、价值观、情绪等一系列的复杂交互作用。但是该假设认为有 if - then 的这种反应模式。if 出现了一个外界的环境刺激，then 你就一定会以某种方式表现。

5、活动导向理论

心理学家 Brian Little 认为，人们的性格是有一定的自由度的，会根据目标和需求有所改变。为了了解和预测一个人的行为，不能只看稳定的人格特质，还有去看价值观或者动机来源，来了解两者的交互作用。

02 Facebook 知道你的性格

基于这些主流的人格心理学理论流派，我们现在有了哪些可以测量人心的手段？

然而，光懂人格分类的学说理论并没有什么用，科学地测试人格才能有效指导企业选拔人才和认知自我。

1、自评式问卷

最简单粗暴原始的测量方法就是 5 点或者 7 点的自评量表。例如，测量大五人格最简单的 mini-marker 只有 10 道题，但是用的比较多的还是46道简短描述的版本。不过它还存在两个主要问题：

1）容易伪装：很多人格问题非常容易看出来问的是什么，所以应用在招聘选拔的情景中时，聪明的候选人很容易想出来应如何作答。

2）每个人对问题解释的想法不同：对于 5 点量表上的每一点究竟对应的是什么具体的行为、或者什么样的程度，不同的人理解也不同，这就导致有许多个人因素会影响人们对同一个问题的作答。

针对这个让人不能忍的自评五点量表，心理学家们想出了许多方法来解决。

首先第一种方法就是把五点量表改成迫选。比如这一对：「大多数的情况下，我会保持积极的态度。」「我喜欢跟别人一道实现共同目标。」

但这种测量的一个最大的弊端就是你的得分只能自己跟自己比。究竟你的外向性和别人的外向性相比谁更强，就很难对比。

2、自适应测验

还有一部分在统计学上的发展是把计算机自适应测验（computerized adaptive testing）的原理应用到人格测评中。

最著名的计算机自适应测验的例子就是以前的 GRE 考试－你如果答对了一道题，下一道题就会更难，答错了下一道就会更简单。

应用到人格测量中就是，假定你的外向性是在从内向到外向这个维度区间上的某一个点上，那么如果给你一道代表极端内向的题，你回答不像你，那么对你内外向的评估就往外向那边挪动一些。

这样通过几道题目就可以不断减小判断的区间，最后准确找出你在这个维度上所处的位置。目前几大咨询公司给出的人格测试很多都是基于这个原理的。

3、情景判断测试

当然，无论听着怎么高大上，这些改进方法还是不能逃离自评这个局限性。所以有一些研究者开始试图开发一些不那么直接的测量手段。

比如有一类测量方法叫做情景判断测验（situational judgment test）：具体说来就是给你一段关于一个情境的简要描述，然后针对这一情境提供四种可能的应对方法，让你选出你最有可能做出的回应。通过行为反推性格。

还有一类基于视频的 SJT－给你一个情境，你需要表现出自己的真实反映，而不是从一堆情境中选择。然后会有摄像头记录下来你的表现，之后有专业人员分析。

类似的非直接的测量还有一种叫做 conditional reasoning，这个更倾向于让你对一个情境做出判断，然后你看问题的角度、解读的方式会反映出你的性格。

也就是说从逻辑上来看不只一种反映是合理的，但是逻辑正确的反映可能会根据人格相关的动机不同而不同。这也跟我前面说过的，不同的人对同一情景的解读不同有关。

4、大数据

但无论怎样，这些测量多少还是逃脱不了「让我自己来告诉你我是什么样的人」。也就是说，人格测验是否能够给用户提供更多价值和洞见、告诉他们一些他们不知道的事情呢？

myPersonality 是剑桥的学者做的嵌入 Facebook 的第三方 app，FB 用户可以通过这个 app 做正规的人格测试，并看到结果反馈。

这篇 paper 就是通过研究用户发得 Facebook 状态信息的语言使用，与他们通过 myPersonality 测的大五人格，以及其他途径收集的信息（比如他人的评价、或者其他结果变量）之间的关系来研究是否能够通过人们使用语言的习惯来推测人格。

类似的，IBM 的 Watson 也提供类似的服务，他们的 Personality Insights API 可以通过分析人们在社交网站或公司内部（比如邮件系统）等使用的语言风格，来分析你的性格（大五）、价值观、需求等。

还有一些创业公司也在利用各种 online footprint，包括 tweets、blog、Facebook 等信息来帮助人们更好的了解自己的性格。

另外也有一个 2013 年的 PNAS 的文章，就是用 7 万多用户的 Facebook like 来推测他们的人格。研究者发现 FB Like 与自评的相关有 0.56，比熟人或朋友的评价与自己评价的相关 0.49 还要高。

当然这两个研究都面临的一个限制是用户的 Facebook 使用程度。

比如用状态语言那个研究，如果没有发够 1000 条状态，他们的语言数据是不够用来建立有效的统计模型的。

所以这里筛选出来的有足够数据的用户本身就有一些偏差，可能本身就是某类特定性格的人，比如稍微外向一些喜欢分享自己事情的人。

这类研究面临的第二个挑战是校标的问题。

这些研究的隐含假设就是说人们用 5 点自评量表评价出来的就是「真实」的人格，然后用社交网站上的各类信息可以得到与这些「真实人格」高相关的结果。

但是由于我们前面探讨过了，这类测量本身就存在其局限性，所以究竟人格是什么、怎么测量、在哲学层面上，还是面临着定义的身份危机。

03 靠谱：大五人格

人格测量哪家强？众里寻它看「海洋」。

最早对人格分类的研究来自于词汇学的研究（lexical approach）。

前面提到过 Gordon Allport 老先生在 30 年代初从字典里收集了几千个描述性格的词汇用于了解人类的性格；之后几年卡特尔把这些词归纳整理缩减到了 1711 个，然后开发了著名的 16PF 人格问卷。

90 年代初，Lewis Goldberg 进一步整理归纳，得出了 5 个维度，就是后来著名的大五人格。

其实不只一个心理学家通过各种统计分析、归纳总结等得到了最终的这五个维度，虽然 Goldberg 以及后来的 Costa 和 McCrae 通过设计测量问卷让这五个维度得到了更广泛的认可和接受。

那么大五主要是哪五个呢？这五个词的缩写是海洋（OCEAN）。

1、经验开放性（Openness）

喜欢学习新东西、探索新鲜事物、喜欢追求智力上的提高、想象力创新创意也跟此相关。很多创业型人才一般开放性也都比较高，与之相对的就是比较保守传统性格的人。

2、尽责性（Conscientiousness）

认真负责、工作努力、严谨自律、有秩序、有责任心、成就动机强等。这个特质在工作场所中的应用最多，因为研究表明它与工作绩效相关度最高。很多招聘选拔类的测试中都要看这个维度。

3、外向性（Extraversion）

内外向大家都懂，但是这里外向性不只包括 sociability－爱说话爱社交爱活动爱刺激这类，而且也包括 dominance－即是不是能够坚持自己的主见、是不是喜欢扮演主导的角色，这点常常跟领导力相关。不难判断，外向性跟销售人员的业务表现还是有相对比较强的联系的。

4、亲和性（也叫宜人性，Agreeableness）

这就是我们常说的一个人是不是友好，是不是温暖、乐于助人、态度谦逊温和、是不是给人面子等。

5、神经质（Neuroticism）

讲一个人是不是容易紧张、焦虑、抑郁、冲动、有攻击性等，情绪是不是稳定等。有趣的是，这个维度是除了尽责性之外、居然是跟一般工作绩效表现关联最高的维度。

大五在学术上是最被科学家们欢迎的，随着研究的深入，大五人格分类也在不断地演进完善。

大五在实际的使用中遇到的第一个主要问题是精细度的问题。

大五固然好，但是过于笼统，每一个维度都可以区分出一些更细分的子维度。于是造成在预测的时候欠缺准确性。具体来说，分为以下几点：

子维度：

为了提高预测的准确性，与之前从人格词汇上行提炼出大维度的方向不同，这次研究人员们开始下行去寻找子维度。在子维度方面，现在还并没有特别统一的结构，但是我当时在 UIUC 的教授 Fritz Drasgow 提出了包含 23 个子维度的结构。

更概括的维度：

为了提升对工作绩效的预测，还有一部分学者继续上行，寻找更概括性的大维度。比如 Hogan 提出的两个大维度是 getting ahead 和 getting along，一个是与个人成长自我实现有关的、一个是与他人的交往和相处有关的。

还有一种二分法是 identity 和 reputation，前者是你自己对自己的看法、你认为自己是怎样的；后者是你建立起的社会形象、或者他人对你的看法。

复杂特质：

还有一种上行的思路是创建一些更复杂的特质、是由一些有一定程度相关但又不完全相同的特质揉在一起的，比如核心自我评价（core self evaluation）这个概念－就是由四个特质组合起来的，包括内外控、情绪稳定性、一般自我效能感和自尊心等。

大家可能都听过一个 TED Talk，是讲一个人发展出了一个叫做 grit 的概念－这就是典型的复杂特质。这种上行的最大的好处是因为这些综合类的特质包含了许多东西，所以在测评的时候格外有利于提高预测效度。

大五在使用中遇到的另外一个问题是交互作用。

从前面的讨论可以看出，对这五个维度的测量是相对独立的，使用的时候也基本上都是分别解释。

但是后来的许多研究证明不同的维度之间会有交互作用。

比如两个维度的性格在一起可能有彼此增强或者削弱的作用。举个例子，研究人员发现只有员工在具有较高尽责性的时候，他们的外向性才与工作绩效成正相关；对于尽责性低的员工，外向与工作绩效无相关甚至负相关。因此，可以从这个角度去考虑改进。

于是一派研究学者就试图把大五维度两两组合，产生了有趣的 45 个子维度，并分别命了名。比如，一个外向性和开放性都高的人，可能是比较机智幽默的；但是一个开放性高但是外向性低的人，可能倾向于有洞见善深思。

这个 AB5C 模型虽然有它的独特性，但是并没有得到学术界过多的追捧。也许是因为有 45 个维度，估计专门研究的教授都记不全。

04 不靠谱：MBTI

据说，拿下 MBTI 的证书就可以两个小时收取上千元咨询费，人人爱做的 MBTI 真的靠谱吗？

下面我们再来简单说一下广为人知的 MBTI。

MBTI（Myers-Briggs Type Indicator）是性格分类理论模型的一种，其基本理论是根据瑞士心理分析家卡尔·荣格于 1921 年所出版的书籍《心理类型》。

在判断一个心理测量是否科学的时候，通常要考虑三个方面: 可靠性，效度和完备性。

第一点是可靠性（Reliable），就是你隔几个礼拜或几个月重新做这个测验得到的结果是一样的。

在这个标准下，MBTI 先天不足，因为它最大的一个问题是使用二分法－对于他的每一组特质，比如内向-外向，或者思考-感觉，他会有一个切分点然后把人一刀切，于是每个人就被归类到了一边。

相反，大五是把你在这个维度轴上的精确位置找出来，而不是给你做二分法归类。虽然我们前面讲过，人格可能因为情境、时间都等有所变化，大五也不可能有 100% 的可重复性，但是与这种人为二分的方法相比，大五还是信度更高。

二分法的另一个先天缺陷是他假设一个人如果是一种类型就不能是另外一种类型。但是就最简单的 thinking 和 feeling 这个维度，有些人可能同时能够有清醒理智的思考也善于感知情绪，这样的话直接分成两类就是过于武断的了。

第二点就是效度（validity），即是否能有效预测行为。

这一点上，MBTI 并没有可靠的科学研究来提供效度数据。而大五有很多很多的 meta-analysis（元分析）来支持它与工作绩效表现的各种相关。

虽然从绝对值上来讲目前并不算太高，大概能最多达到 0.3-0.35 这样的相关，但是这个数字至少能保证在不同条件下都重复得到类似的结果。

MBTI 大多数用于解释、或者团队互动等，我很少看到有用 MBTI 做选拔的；即使有，也表示预测效度不可知。

第三点是完备性（comprehensiveness），从 MTBI 的几个维度来讲，它并没有经过严格的自下而上的对多种特质的全面总结和统计分析，也不能涵盖所有重要的维度。

它是基于早期荣格的理论，那时候人格心理学的发展还很有限，很多分类系统都还没有完善出来，就算有一些道理，也只能算一家之言，没有经过百家争鸣的过滤和筛选。所以它的完备性和理论基础都有可质疑的地方。

不过也不能说 MBTI 完全一无是处。大五与 MBTI 相比，也有其先天不足。正如我们前面讲过，大五略零散、缺乏对不同人格之间的协同作用的概括性总结（即 whole-person profile 层面的分析）。

这点上 MBTI 虽然未必是最好的分类方法，但是分类法比特质法的确便于人们记忆和交流，所以 MBTI 火起来也并无完全没道理，在解释在交流的层面上来讲，它确实比大五容易记忆和应用；但是在相关和预测的层面上，它的精度是没有办法与大五相比的。

虽然近期也有一些学者试图研究大五的 profile 与工作或者学业表现的关系，但是目前还没有什么特别显著的进展。也许精确性和解释性之间天然就存在一定的矛盾对立吧。

05 小结

1、心理学对人格的理解，分为较稳定的特质说和情境说。交互学说则取二者之长，注重环境和特质的交互影响。

2、大五人格（OCEAN）是最广为接受的人格分类，近年来心理学家也在寻求向上和向下更概括性或细致的人格分类。MBTI 的不靠谱在于它的二分法，信效度也均没有通过严谨的检验。

3、通常的人格测量是利用 5 分自我报告量表，但这样的测量方法也存在很多问题。近年来新的测量尝试利用非自评的模式，通过分析社交媒体等信息来推测人们的人格。

人类花了上千年研究「如何认识你自己」，但并不是每个人都能真切的了解到自己是谁。只有你自己才能终身与你作伴，不用 MBTI、星座给自己贴标签，请用更科学的大五人格开始认识自己。■