李晓煦：没有对比就没有统计（下）

李晓煦开智学堂

开智君说

任何严谨的心理学研究背后，都基于统计学的扎实推演和不断质证。但统计学教材往往晦涩难懂，如何更好地入门统计学呢？开智曾邀请《三生有幸》作者、曾师从国际心理统计学泰斗侯杰泰老先生的李晓煦老师，为大家奉上一堂统计学入门公开课。他通过五个案例，让大家明白，统计最重要的东西，是选好那个恰当的对比标准。一休整理了公开课文字稿，与你分享。稿件较长，分上下篇发出，本文是下篇。

作者：李晓熙来源：原创正文共 10195 字，预计阅读时间 26 分钟

本文接上篇：李晓煦：没有对比就没有统计（上）

04 现代统计学师徒：父与子

现代统计学几乎是弗朗西斯·高尔顿（Francis Galton）一个人开创的，或者说是高尔顿和达尔文-高尔顿家族及其徒子徒孙们开创的。

高尔顿在 1886 年有一个发现，如果把一个物种父代高的一些个体挑出来，那么这些高个体的下一代，平均高度会比挑出来的父代均值要矮，会向整个物种的中位数回归。

回归这个词，英文的字面意思，就是我们平常理解的意思，因此这个词会进入到统计学的文本。但现在我们使用回归这个词的时候，头脑里其实不是指向这个概念，更多是在讲预测。

举个例子，假如每次考试，所有学生的平均分是 75 分，得 90 分的学生群体，在另外一次同样难度的考试中，平均成绩会低于 90 分；而得 60 分的学生群体，在另一次同样难度的考试中，平均成绩会高于 60 分。

这个现象困扰了高尔顿很久。他为什么会去研究这个问题？

这跟他的外公有间接关系，他的外公就是查尔斯·达尔文（Charles Robert Darwin）的爷爷伊拉斯谟斯·达尔文（Erasmus Darwin）。下图是 32 岁的达尔文和 19 岁的高尔顿，是这对表兄弟在 1840 年前后留下的画像。

查尔斯·达尔文是演化论的主要奠基者，高尔顿是他终身的粉丝，在家族里面他最崇拜的就是这位表兄。

达尔文没解决的问题是什么？他解决了物种的选择问题，却没有解决遗传的问题。他不是研究遗传领域的学者，所以不懂这方面的专业内容，没办法回答这个领域的问题。

达尔文的演化论（现在比较流行的说法叫「进化论」），在他那个时代是一个流行的假说，不是一个流行的科学学说。高尔顿很快意识到达尔文的学说所面临的这个困境，所以他想研究遗传，想研究整个物种遗传前后这些数据的特征。

现代统计学几乎是从这个时候发端的，我们都可能会有一个错误的认识，以为像生物统计学、心理统计学这些学科，是在统计学建立之后才分化出来的，实际情况刚好相反。是先有生物统计学、心理统计学这些学科，（推断性的）现代统计学在这个过程中才随之成形。

下图右边这位就是高尔顿，左边是著名的卡方分布（Chi-square Distribution）的推导者卡尔·皮尔逊（Karl Pearson）。他提出的一个重要概念是「相关系数」（Correlation coefficient）。

相关系数就是为了回答他的导师高尔顿的这个问题。相关系数就是预测，假如父亲的身高和孩子的身高相关系数是 0.6，这个系数其实相当高，父子身高的相关也许还没有那么高。

相关系数一个最直观的应用就是，如果你知道父亲的身高或体重比他的群体高一个标准差，那么你会预测，他的孩子的身高或者体重，会比他的孩子的那个群体高 0.6 个标准差。你预测的 0.6，就是相关系数。

相关系数不可能大于 1，只能小于 1。像体重、智力这些在父子之间，或者在不是同卵生的兄弟之间的相关系数，都没有我们生活中所预期的那么高，可能就是 0.6 的数量级。

上图左边是皮尔逊的的信息，右边是高尔顿的。最后一条是关于他们的师徒关系。

高尔顿本来没有在大学工作。那个时代的英国知识分子，特别是人生赢家，有一个特点就是不用工作，是土豪，可以给大学捐赠一个讲席，实际上他不只是捐赠这个讲席，也是建立起了这个科系。他最重要的徒弟皮尔逊就是第一任的高尔顿讲席教授。

皮尔逊解决了高尔顿心中的那个难题，为什么？因为相关系数算出来是 0.6，所以用父代的身高预测子代身高的时候，要用父代比父代均值多出来的那几个标准差乘以 0.6，最后一定会向他们的平均数去回归收拢。

也许了解二元正态分布的同学，会看得懂下图，如果看不懂就算了，后面主要讲中间这一幅图：两个变量是正态的，又是正相关，但这个正相关又不要极端到像右边这样相关系数等于 1。

那么，它画出来的密度等高线就是这种椭圆，这个椭圆有什么特点？椭圆本身相对于对角线是对称的。为什么？因为 X 变量跟 Y 变量都可以做标准化，做了标准化以后，它们都服从同样的标准正态分布。所以这个椭圆从 X 轴去看和从 Y 轴去看，看到的是同样的分布。

所以我们有一个直观印象，它应该是关于对角线对称的，但它的预测线又偏偏不是对角线，而是由它的相关系数决定的一个斜率。现在把中间这个图放大。

假如父亲的身高是正一个标准差，那么用父亲的身高去预测孩子的平均身高，会预测到多少呢？是 +0.6 个标准差。

不是图中蓝线红线分界处，而是红线绿线分界处，为什么？因为用父亲身高这个线去切的时候，切出这一段个案的密集程度，会像一个正态分布的钟形曲线，中间的点会比较多，两端的比较少。

中间是在哪里？是在 0.6 斜率的这根线这里。因为你把上面红蓝两段线加起的长度跟下面这段绿线的长度对比，会发现，如果要让它们左右对称（我们说的左右，其实说的是钟形曲线上下关于它的中心对称）。那么两个等密度点的中点不在对角线上。

这是用一个变量去预测另一个变量，如果它们都是正态分布，而且是正相关时，一般情形都是图中看到的样子。你不应该用正一个标准差去预测正一个标准差，而是应该用正一个标准差去预测这个椭圆切下来的等高线中心。

这个等高线一层一层的，它预测的点不会跑到图中蓝线红线分界位置，而应该跑在红线绿线分界位置，这里就是跟这些椭圆的等高线其中一条会相切的一个点。

下图告诉我们一个什么事情？如果你用孩子的身高去预测父亲的身高，或者用父亲的身高去预测祖父的身高时，也有同样的规律。

所以当高尔顿了解到这个最简单的事实，即预测关系和时间先后没有关系时，他就不需要在演化论的意义上再困扰于这个问题了。

之前他担心什么？整个物种越来越向平均数去收拢，就变成越来越少的物种内的个体差异分化，我们现在叫「方差」。

达尔文的整个学说，就是建立在物种内个体差异的基础上，所以才能够在分化里做自然选择。但如果物种的分化越来越小，那不是很糟糕？这是高尔顿最初担忧的地方。

但他想明白父亲再往上一代去预测的时候照样会更矮，高个子的父亲平均而言，会有比他矮一点的祖父代，他就没有困扰了，因为对称性，两代之间不能两个方向都是收拢的。

我们还可以知道，不仅趋中回归、而且回归也跟时间方向没有关系，你可以用现在去预测未来，同样也可以用现在去预测过去。

有一个直观的概念，0.6 的正相关大概是，百里挑一的学霸的孩子，平均而言就只有十里挑一这个水准了。怎么算出这个数？百里挑一是 +2.58 个标准差，因为百里挑一是在整个群体里排到前面的一个百分点，可以从 0% 排到 1%，平均一下它会排前 0.5 个百分点。

用 R 语言这一段简短的代码 ppoints(100)[1] 就能够算出来 0.005。把 0.005 对应的标准差 2.58 乘以 0.6 的时候，就得到它预测的那个下一代平均就只有 +1.55 个标准差，这个结果就是 10 个里面最好的一个人所占的预测比例。

是前 6.1% 不是前 10%，它可以从前 0% 预测到前 1%，但因为统计上根据实际经验的调整，所以不是 5%，而是 6.1%。

这就是 0.6 正相关对应的经验直觉。

相关系数还有两位值得一提的重要研究者。

一位是心理学家查尔斯·斯皮尔曼（Charles Edward Spearman），他也是高尔顿的粉丝，同时还是威廉·冯特（Wilhelm Maximilian Wundt）的博士生。

斯皮尔曼 1930 年的自传总结说：冯特和高尔顿是对他影响最大的两位前辈。自传中写到他的各项研究，高尔顿的影响又比冯特更为具体。

我们现在能够想到的各种运用多元统计的心理学研究，几乎都是斯皮尔曼所开创学派的学术后代。像智力的研究、人格多元统计的研究，主要的方法就是「因子分析」，后面会有一个直观的图示。

另外一位是罗纳德·费舍尔（Ronald Aylmer Fisher），我们现在算的各种各样的 p 值，都是在他的方案指引下算的，甚至连 0.05 这个标准，也是因为他在自己撰写的参考书附表不经意间选用 0.05 这个临界尾概率开列统计量的分位数表。

其他同行当时没有电脑，只能翻书查表。应用中算出来的统计量是不是显著、够不够大，流行的表格上面最常用一栏只有 0.05 尾部概率对应的统计量临界值方便参考，没有与 0.05 临近的 0.04 或者 0.06。

实践中 0.05 显著性标准就演变成我们现在学刊审稿和教材示例默认传统。学刊审稿体制演变形成单一的默认标准也许有道理，历史传统因循 0.05 就不是因为这个数值本身学术上有什么特别道理。

下图是斯皮尔曼工作的一个直观图示。横坐标的变量名字跟纵坐标的变量名字完全一样，里面画的就是它们互相的相关系数，对角线是同一个变量与自身的相关系数 1。

这个图告诉我们什么？不同颜色的上下两批变量测的是两类概念，根据这个图示，我们会怀疑，这里面测量到了两种概念，每种概念内部测的与这个概念有关系的一组变量，彼此之间就会有比较高的相关，在图上画成绿色。

第一类概念变量和第二类概念变量的相关就比较低，在图上用黄色到红色的图示一目了然地表现出来。再看第一类概念里面，好像又可以分出一个小的概念（前 6 个变量）和一个大一点的概念，这是因子分析的直观思路。

这整个研究方向是由斯皮尔曼和他领导的伦敦学派开创。他和卡尔·皮尔逊在同一个大学教书，虽然都是高尔顿学术的继承发展者，但俩人的个人关系非常紧张，经常针锋相对。皮尔逊主持遗传学系（当时叫「优生学系」），斯皮尔曼主持心理学系。

（围绕推断与预测的）现代统计学不是生物统计和心理统计的前身，而是生物统计和心理统计开创史的延伸。其中多元统计这个大领域，是由斯皮尔曼的学派主要开创的。

而历史上第一个造计算器去算相关系数的统计学家是个心理学家，叫克拉克·赫尔（Clark Leonard Hull），是 1930 年代~1940 年代整个心理学界的领袖。他的声望被布鲁斯·斯金纳（Burrhus Frederic Skinner）取代之前，他在心理学界的座次就是现在斯金纳的心理学史座次。

赫尔的学派叫「逻辑行为主义」，在 20 年代刚刚出道的时候，他就擅长研究测算心理学变量的相关系数。为了算相关系数，他发明了下图中的计算器，把数字用纸带读进去，把两列数字的相关系数输出。

相关系数可以说是整个心理测量最核心的统计工具。

继承皮尔逊的第二任高尔顿讲席教授是罗纳德·费舍尔。

下图中的公式，可以了解一下。皮尔逊相关系数如果做一个简单变换，会比较像正态分布，这么一变化，就可以做各种各样的统计检验，以及算它总体相关系数的置信区间。

费舍尔不是高尔顿的徒弟，他是里奥纳德·达尔文（Leonard Darwin，查尔斯·达尔文之子）的徒弟。

下图是费舍尔的代表作，扉页题词敬献业师 Leonard Darwin。

费舍尔当选皇家学会院士的时候，他给里奥纳德写信说：「我知道您会非常开心，就像我的父亲假如能看到我当选院士。」他们这种终生的师徒关系，情同父子。高尔顿和皮尔逊也是这样一种情同父子的师生关系。

所以我们发现，这几位现代统计学的重要开创者都是达尔文演化论的学术后代，或者说，都是达尔文-高尔顿家族的学术后代。下图是（引自维基百科的）大致时间线。

查尔斯·达尔文在二排最左侧，费舍尔参与的工作在最下方，马尔萨斯（Thomas Robert Malthus）在第一排最左侧，他的工作是人口论。人口论是说，像瘟疫、战争这些外部因素，会和人口指数增长趋势互相作用。这直接启发了达尔文提出自然选择。

演化论最后成为科学学说是在第二次世界大战前后， 20 世纪早期就开始这个工作了，但是到第二次世界大战之后才完成。这个学说有个学名叫做「新综合*」*（Modern Synthesis），或者叫「现代综合」。

参与现代综合的学者很多，其中比较重要的、似乎没有比他明显更为重要的人物，就是前面介绍的统计学家费舍尔。

费舍尔获得很多赞誉。对于生物学家，他相当于是新时代的达尔文，他是达尔文最重要的继承者；对于农业学家，他相当于是袁隆平在中国的地位，因为他的实验性农业研究，使得那个时代全球农业产量有实质性的提升。

对于心理学家，现在所有心理学家写的研究实验结论，大部分都用到他的方案，报告 p 值。

这是一个贡献，也是一个流毒，经过他的方法熏陶过，很多同行都不懂他们做的结果描述统计层面是多大，只知道能不能被审稿人和刊物的编辑接受。p 值达到了 0.05 的阈值以后，好像就有了个敲门砖，但就不知道 p 的数值是什么意思。

那个 p 确实不可能知道是什么意思，不是说不能在数学上把它讲明白，而是说它讲的 *p* 值，是在一个想象的、跟真实世界互相冲突的另外一个世界里的概率。

这样一个想象的概率，在生活经验里没有直观经验对应。你可能会在生活的真实世界找对应的概念，到底算出的这个 p 值是真实世界里的哪个概念，其实哪个概念都不是，它只是一个跟真实世界互相冲突的、另外一个世界里想象中的概念。

因为它在真实世界里没有对应物，所以你对它的任何基于真实世界直观经验的理解都是误解。这是现在做定量实验的各种学科，包括生物学、农学、医学，以及越来越多的定量模型研究的社会科学，几乎全部的研究者被费舍尔 p 值概念绕进去的巨坑。

05 以色列空军飞行教练：踩与赞

最后这个例子是，以色列空军飞行学校的教官，采用心理学家推荐的一个行为主义策略来训练学员。学员每次完成优秀的飞行动作，都会受到及时的口头表扬。这个训练策略经过一段时间的实践，教练发现跟心理学原理的预测刚好相反。

表扬完以后，学员在下一次飞行时，平均而言会比上一次飞行水平下降。如果学员飞行动作完成得不好，没有被表扬，反而观察到，这个没被表扬的群体，在下一次飞行的表现会比上一次好。

对这个事情，心理学家怎么说？下图两位作者，大家可能对左边的丹尼尔·卡尼曼（Daniel Kahneman）比较熟悉。卡尼曼获得诺贝尔经济学奖的时候，他的合作伙伴阿莫斯·特沃斯基（Amos Tversky）已经去世。

特沃斯基曾经是以色列的伞兵，他参加过好几次中东战争，在其中一次战争中，扛枪跳伞执行战场任务。所以他们这个研究团队，和以色列军方有比较密切的联系。他们的文献写到一个空军飞行学校教官的例子。

回到下面这张图。

直到这个时候，前面高尔顿操心的问题才算是真正解决了。为什么？皮尔逊解决了高尔顿的问题之后，仍然有很多人不能够接受这个结论。

为什么用父亲的身高去预测孩子身高的时候，会向平均数去回归，是不是有一个神秘力量在背后促成这个统计客观现象？

卡尼曼和特沃斯基解答了大家的疑问，为什么你会这么想？因为你会本能地相信，高个子父亲的孩子的平均身高，应该就是这批高个子父亲的平均身高，大家都本能地相信这个信念。

这是一个心理学现象，不是一个数学、统计学现象。在没有人类的世界，它不构成一个问题，因为没有人去这么想，而客观世界还是按照相关系数的规律向着中心趋中。

结论是什么？因为有一个心理学的错误对比参照点，所以趋向中心的回归被认为是有神秘力量在让它发生，这是一个心理上的因果模型：要有一个原因，才能使它偏离你心目中认为公平的那个位置。

卡尼曼和特沃斯基最后发现，这个公平位置是一个心理学问题，不是一个统计学问题。根据他们的学说，人类会本能地做这样的预测：认为孩子的平均身高跟其父亲的身高是一样的。

这个预测本身是错的，而观察到的现象其实无所谓对错，你就是观察到这个现象了。然后用一个错误的对比基准，让你观察到的现象有一个附带出的特殊意义，从这个错误的起点向正确的观察结果回归。

其实根本不是回归，它本来就在这里，没有任何特殊力量驱使它。而你认为它被驱使回归的出发点，是基于你这个物种的本能想法。

我们现在回答了，从人类的本能、心理学的本能到统计事实之间的距离。

今天的主题是什么？没有对比就没有伤害，或者没有对比就没有统计。统计最重要的东西，是选好那个恰当的对比标准，如果你找的是错误的对比标准，它会给你一个特别的错误结果。

所谓的因果，就是你现在看到的事实跟另外一个对比的东西，我们把它叫做反事实、假想事件之间的反差，这就是那个原因造成的结果。

现在已经知道，趋中回归不是单纯的统计学现象，主要是心理现象，在没有人类的世界里没有这个问题，只有有心理的世界才有这个问题。

有一个事实，你还要去找一个对比，这个对比怎么找？很多时候是做实验，就是让你随机抽取的另一批被试吃假药，有这一批吃假药的被试，你才能知道吃真药的那一批被试中，药到底起了多大作用。

你要有反事实的对比，这就是为什么现在必须做双盲实验，才能够知道药物有没有安慰剂之外的效果。

为什么要找一个尽可能精密的、严密的、没有任何借口可以解释的对比基础？要做到特别严密，一个重要的地方是，不能让这个药吃出味道。所以做实验的药是要用胶囊包起来的，你在吃这个真药时，跟吃假药在口中的味觉是完全一样的。

不只是你不能区别出这两种药，当时给你发药的实验人员都不能区别出来，他手上只有数字。过了整个实验周期，大家都抄好数字之后，之前编排这个数字的随机数表才被公布出来。这个时候就叫「揭盲」，揭开双盲的意思。

这里的双盲是指，吃药的人不知道自己吃的是真药还是假药，给你药的人也不知道手中的是真药还是假药。因果操作化的意思就是，如果把药这个原因换成假药这个原因，那么两种结果的反差怎样，这个时候要做一个对比。

回到之前的问题，如果伯克利研究生院的男生，想知道女生到底有没有占了他们的便宜，要怎么做研究设计？

只看到女生在每个学院都比男生录取率高，不能就下结论说，性别在里面起到了作用，为什么不是另外一个变量起到作用？比如，女生成绩确实比男生好，那不是性别造成的歧视，是成绩造成的歧视。成绩造成的歧视就不叫歧视了，叫做德能配位。

这批男生要怎么办？你要找到那个反事实。什么叫反事实？只把性别改掉，其它东西不改。这批男生要把已经做好的申请材料，随机分成两组，连分的人都不知道，每组分的是男生的名字还是女生的名字。操作过程中，给他贴了男生的名字和女生的名字，然后把这些材料送到研究生院的各个院系招生委员会，让他们判断收还是不收。

现在你手上就有反事实了，也就是原来的男生如果变成女生，或者原来的女生变成男生。最严格的情况，当然希望同一批人又有男生又有女生，各做一遍，但这样做会有其它技术上的麻烦。

所以我们是用统计的办法，让标成男生的这个类型跟标成女生的那个类型，在所有变量上都跟性别没有任何关系。也就是说，男生任何变量的分布跟女生任何变量的分布，在总体上都是一样的。所谓总体是说，如果人数够多，他们一定会变成一样的。

这个做法是什么呢？就是拿一个假随机数放进去，就是伪随机数。这个伪随机数有什么特性？它能够做到跟真实生活的任何研究变量都没有一丁点预测关系。他报告男生时其它变量的分布特性，跟报告女生时其它变量的分布特性完全一样。

如果你看到不一样，那是因为随机性造成的影响，这个影响我们用统计的办法把它控制住，通过足够大一点的样本量，把统计造成的波动在平均数上缩小到足够小的范围。

用前面提过的费舍尔的方案理解，*p* 值缩小到足够小的范围的时候，标准误就特别小。标准误特别小的时候，你看到的结果就特别可信。如果加减两个标准误之后，定性有效的结论仍然成立，这就是说，结果真的不能由随机性解释了。

最后这一段，没有学过统计的同学可能听得比较模糊。那么回到简单的命题，就是描述统计问题。如果看到男生女生的数据，我们说是性别造成的影响，这到底是在说什么？

是在说，如果把他的性别隐匿，其他东西都不改，结果不是这样了，结果应该是一个对于两性公平的结果。如果我随机分配他的性别，结果应该是公平的，被随机标成男生跟被随机标成女生的录取率应该是一样的。

回到我们的工学院和商学院的例子，当你改完性别以后，结果发现原来报考商学院的女生在材料上改性别后还是报考商学院，新的录取率不变，没有变成原来男生的商学院录取率，更没有变成男生全校录取率。

这是你看到的反事实的基础。如果你找到了正确的对比，就能够得到结论，到底性别有没有改变你心目中的那个公平的结果。

最后讲一个更加不容易想到，但是说完以后大家都会明白的方法论上的简单道理。

有两批学者在争论，国家权力集中到中央的体制，对经济发展好还是不好？两批学者可以看到同样的数据，他们对看到的数据也可能是没有任何分歧的。他们不一样的地方在哪里？他们心目中反事实的想象是相反的。

其中一批学者可能想象，如果权力从中央向地方分散，经济发展会变成印度或巴基斯坦那样的水准。另外一批学者会认为，如果权力从中央向地方分散，变成市场主导，经济发展会向韩国和日本的水准靠拢。为什么呢？

前一派学者认为，中国的人口规模、发展基础和印度、巴基斯坦比较，可以类比；后一派学者认为，我们的文化、生活方式跟日韩这两个国家比较，可以类比。

现在得到的方法上的启发是什么？这两批学者之所以得到不同的因果结论，是因为他们心目中对比的反事实是不同的，不是因为他们看到的实证事实不同。想象不同的对比物，给他们带来了不同的研究结论。

06 小结

最后回顾一下，今天讲的五个例子背后的统计学干货。

第一个例子背后的干货是，什么叫交互作用。一个自变量造成了因变量的实验效应，另一个自变量把这个实验效应又改变了一下，这个差之差就叫做交互作用。男生的实验效果比女生的实验效果好多少，就叫做交互作用。这个实验效果本身是一个差，吃真药减去吃安慰剂的差。

如果只研究一个研究分组的变量，就不叫交互作用了，叫做实验效应。这个实验效应是对比出来的，不是观察到的一份结果，而是观察到一份结果后，还要去看另外一个对比基准。这个对比结果理想的情况是我们用实验给做出来。

第二个例子背后的干货是，我们做预测时，有一种变量叫被我们控制的变量。什么叫被我们控制的变量？这个控制不是控制组的控制，我们一般把控制组控制的变量翻译为实验变量或者叫做操控，而不是控制变量。

英语上是两个不一样的词，一个是 control，一个是 manipulate。manipulate 表示我可以操控它，控制的意思是我可以用这个变量的信息去分组，我只在分好的组内做预测，不把各个组混淆起来，这个就叫预测时的控制变量。或许把它叫做协变量，就不容易跟实验组对照的那个控制组混淆。

第二个例子里的控制变量或者协变量是什么？就是学院。一开始我们如果没有拿到学院的信息，真的不知道女生比男生占便宜。等我们拿到学院信息之后，才知道每个学院里女生都比男生占便宜。

第三个例子讲的主题是对比。如果你对比的东西是假的或者是明显不对的，这个对比就叫做「稻草人谬误*」*。你树立一个很容易被打倒的东西，就会给人一种错觉，你的命题非常正确。为什么？

相对于那个稻草人非常正确，其实你的命题本身是无足轻重的。如果不是相对于稻草人，而是相对真实的、正确的对比参照点，你的命题就经不起推敲。

第三个例子对比的参照点是，80 岁以上的长者这一年里的平均死亡率，应该用什么比例去对比。

参照点是 8.33% 类似数量级的数，而不是日常生活中以为的我们周围的人明年还都会在我们身边，后者只是大多数人的先入之见。在老人院就没有这个先入之见，因为在老人院里会不断地体验什么叫人间过客。

第四个例子讲的是相关系数的预测和趋中回归，但你不要把趋中回归这个词理解成我们现在的术语：回归的预测。这个趋中回归就是字面上的意思，向中间靠拢。

相关系数我们的的用法是，预测的变量增加一个标准差，X 增加一个 X 的标准差，问这个 Y 预测值会比 Y 的平均值高出多少个 Y 的标准差。如果高出的是 0.6，他们之间的相关系数就叫做 +0.6 的相关。

预测的两个方向都是一样的，你如果知道 X 开始变 1 个标准差，Y 的预期也会跟着变 0.6 个标准差。反过来，Y 变 1 个标准差，X 的预期也会变 0.6 个标准差。

这时你会发现，不能把预测结论倒推为「Y 变正 0.6 个标准差，X 的预期也会变 1 个标准差」，因为这里面重要的一个形容词叫做预期，当你说「Y 的预期也会跟着变 0.6 个标准差」，不是 Y 固定变了 0.6 个标准差，而是 Y 围绕着变 0.6 个标准差预期为中心展开分布。

最后一个例子讲的是，统计学里的因果其实是找对比的东西，找原因的另外一面。原因的这一面和原因的那一面，两面我们都要看得到。如果两面的事实结果都看到了，这就是实验设计。

实际上在社会学、政治学这些学科，很难做到两面都能够做实验去看到，我们只能看到现象的一面。但我们有一个想象中的另一面，叫如果公平的世界，那会怎样？正是因为有如果公平的世界，才会有最后的因果的结果。

今天的讲座就到这里，谢谢大家！■

感谢逗妈、hyeebeen 整理文字稿。