李晓煦:没有对比就没有统计(下)

李晓煦 开智学堂

开智君说

任何严谨的心理学研究背后,都基于统计学的扎实推演和不断质证。但统计学教材往往晦涩难懂,如何更好地入门统计学呢?开智曾邀请《三生有幸》作者、曾师从国际心理统计学泰斗侯杰泰老先生的李晓煦老师,为大家奉上一堂统计学入门公开课。他通过五个案例,让大家明白,统计最重要的东西,是选好那个恰当的对比标准。一休整理了公开课文字稿,与你分享。稿件较长,分上下篇发出,本文是下篇。

作者:李晓熙 来源:原创 正文共 10195 字,预计阅读时间 26 分钟

本文接上篇:李晓煦:没有对比就没有统计(上)

04 现代统计学师徒:父与子

现代统计学几乎是弗朗西斯·高尔顿(Francis Galton)一个人开创的,或者说是高尔顿和达尔文-高尔顿家族及其徒子徒孙们开创的。

高尔顿在 1886 年有一个发现,如果把一个物种父代高的一些个体挑出来,那么这些高个体的下一代,平均高度会比挑出来的父代均值要矮,会向整个物种的中位数回归。

图片

回归这个词,英文的字面意思,就是我们平常理解的意思,因此这个词会进入到统计学的文本。但现在我们使用回归这个词的时候,头脑里其实不是指向这个概念,更多是在讲预测。

举个例子,假如每次考试,所有学生的平均分是 75 分,得 90 分的学生群体,在另外一次同样难度的考试中,平均成绩会低于 90 分;而得 60 分的学生群体,在另一次同样难度的考试中,平均成绩会高于 60 分。

这个现象困扰了高尔顿很久。他为什么会去研究这个问题?

这跟他的外公有间接关系,他的外公就是查尔斯·达尔文(Charles Robert Darwin)的爷爷伊拉斯谟斯·达尔文(Erasmus Darwin)。下图是 32 岁的达尔文和 19 岁的高尔顿,是这对表兄弟在 1840 年前后留下的画像。

图片

查尔斯·达尔文是演化论的主要奠基者,高尔顿是他终身的粉丝,在家族里面他最崇拜的就是这位表兄。

达尔文没解决的问题是什么?他解决了物种的选择问题,却没有解决遗传的问题。他不是研究遗传领域的学者,所以不懂这方面的专业内容,没办法回答这个领域的问题。

达尔文的演化论(现在比较流行的说法叫「进化论」),在他那个时代是一个流行的假说,不是一个流行的科学学说。高尔顿很快意识到达尔文的学说所面临的这个困境,所以他想研究遗传,想研究整个物种遗传前后这些数据的特征。

现代统计学几乎是从这个时候发端的,我们都可能会有一个错误的认识,以为像生物统计学、心理统计学这些学科,是在统计学建立之后才分化出来的,实际情况刚好相反。是先有生物统计学、心理统计学这些学科,(推断性的)现代统计学在这个过程中才随之成形。

下图右边这位就是高尔顿,左边是著名的卡方分布(Chi-square Distribution)的推导者卡尔·皮尔逊(Karl Pearson)。他提出的一个重要概念是「相关系数」(Correlation coefficient)

图片

相关系数就是为了回答他的导师高尔顿的这个问题。相关系数就是预测,假如父亲的身高和孩子的身高相关系数是 0.6,这个系数其实相当高,父子身高的相关也许还没有那么高。

相关系数一个最直观的应用就是,如果你知道父亲的身高或体重比他的群体高一个标准差,那么你会预测,他的孩子的身高或者体重,会比他的孩子的那个群体高 0.6 个标准差。你预测的 0.6,就是相关系数。

相关系数不可能大于 1,只能小于 1。像体重、智力这些在父子之间,或者在不是同卵生的兄弟之间的相关系数,都没有我们生活中所预期的那么高,可能就是 0.6 的数量级。

上图左边是皮尔逊的的信息,右边是高尔顿的。最后一条是关于他们的师徒关系。

高尔顿本来没有在大学工作。那个时代的英国知识分子,特别是人生赢家,有一个特点就是不用工作,是土豪,可以给大学捐赠一个讲席,实际上他不只是捐赠这个讲席,也是建立起了这个科系。他最重要的徒弟皮尔逊就是第一任的高尔顿讲席教授。

皮尔逊解决了高尔顿心中的那个难题,为什么?因为相关系数算出来是 0.6,所以用父代的身高预测子代身高的时候,要用父代比父代均值多出来的那几个标准差乘以 0.6,最后一定会向他们的平均数去回归收拢。

也许了解二元正态分布的同学,会看得懂下图,如果看不懂就算了,后面主要讲中间这一幅图:两个变量是正态的,又是正相关,但这个正相关又不要极端到像右边这样相关系数等于 1。

图片

那么,它画出来的密度等高线就是这种椭圆,这个椭圆有什么特点?椭圆本身相对于对角线是对称的。为什么?因为 X 变量跟 Y 变量都可以做标准化,做了标准化以后,它们都服从同样的标准正态分布。所以这个椭圆从 X 轴去看和从 Y 轴去看,看到的是同样的分布。

所以我们有一个直观印象,它应该是关于对角线对称的,但它的预测线又偏偏不是对角线,而是由它的相关系数决定的一个斜率。现在把中间这个图放大。

图片

假如父亲的身高是正一个标准差,那么用父亲的身高去预测孩子的平均身高,会预测到多少呢?是 +0.6 个标准差。

不是图中蓝线红线分界处,而是红线绿线分界处,为什么?因为用父亲身高这个线去切的时候,切出这一段个案的密集程度,会像一个正态分布的钟形曲线,中间的点会比较多,两端的比较少。

中间是在哪里?是在 0.6 斜率的这根线这里。因为你把上面红蓝两段线加起的长度跟下面这段绿线的长度对比,会发现,如果要让它们左右对称(我们说的左右,其实说的是钟形曲线上下关于它的中心对称)。那么两个等密度点的中点不在对角线上。

这是用一个变量去预测另一个变量,如果它们都是正态分布,而且是正相关时,一般情形都是图中看到的样子。你不应该用正一个标准差去预测正一个标准差,而是应该用正一个标准差去预测这个椭圆切下来的等高线中心。

这个等高线一层一层的,它预测的点不会跑到图中蓝线红线分界位置,而应该跑在红线绿线分界位置,这里就是跟这些椭圆的等高线其中一条会相切的一个点。

下图告诉我们一个什么事情?如果你用孩子的身高去预测父亲的身高,或者用父亲的身高去预测祖父的身高时,也有同样的规律。

所以当高尔顿了解到这个最简单的事实,即预测关系和时间先后没有关系时,他就不需要在演化论的意义上再困扰于这个问题了。

图片

之前他担心什么?整个物种越来越向平均数去收拢,就变成越来越少的物种内的个体差异分化,我们现在叫「方差」。

达尔文的整个学说,就是建立在物种内个体差异的基础上,所以才能够在分化里做自然选择。但如果物种的分化越来越小,那不是很糟糕?这是高尔顿最初担忧的地方。

但他想明白父亲再往上一代去预测的时候照样会更矮,高个子的父亲平均而言,会有比他矮一点的祖父代,他就没有困扰了,因为对称性,两代之间不能两个方向都是收拢的。

我们还可以知道,不仅趋中回归、而且回归也跟时间方向没有关系,你可以用现在去预测未来,同样也可以用现在去预测过去。

有一个直观的概念,0.6 的正相关大概是,百里挑一的学霸的孩子,平均而言就只有十里挑一这个水准了。怎么算出这个数?百里挑一是 +2.58 个标准差,因为百里挑一是在整个群体里排到前面的一个百分点,可以从 0% 排到 1%,平均一下它会排前 0.5 个百分点。

用 R 语言这一段简短的代码 ppoints(100)[1] 就能够算出来 0.005。把 0.005 对应的标准差 2.58 乘以 0.6 的时候,就得到它预测的那个下一代平均就只有 +1.55 个标准差,这个结果就是 10 个里面最好的一个人所占的预测比例。

是前 6.1% 不是前 10%,它可以从前 0% 预测到前 1%,但因为统计上根据实际经验的调整,所以不是 5%,而是 6.1%。

这就是 0.6 正相关对应的经验直觉。

图片

相关系数还有两位值得一提的重要研究者。

图片

一位是心理学家查尔斯·斯皮尔曼(Charles Edward Spearman),他也是高尔顿的粉丝,同时还是威廉·冯特(Wilhelm Maximilian Wundt)的博士生。

斯皮尔曼 1930 年的自传总结说:冯特和高尔顿是对他影响最大的两位前辈。自传中写到他的各项研究,高尔顿的影响又比冯特更为具体。

我们现在能够想到的各种运用多元统计的心理学研究,几乎都是斯皮尔曼所开创学派的学术后代。像智力的研究、人格多元统计的研究,主要的方法就是「因子分析」,后面会有一个直观的图示。

另外一位是罗纳德·费舍尔(Ronald Aylmer Fisher),我们现在算的各种各样的 p 值,都是在他的方案指引下算的,甚至连 0.05 这个标准,也是因为他在自己撰写的参考书附表不经意间选用 0.05 这个临界尾概率开列统计量的分位数表。

其他同行当时没有电脑,只能翻书查表。应用中算出来的统计量是不是显著、够不够大,流行的表格上面最常用一栏只有 0.05 尾部概率对应的统计量临界值方便参考,没有与 0.05 临近的 0.04 或者 0.06。

实践中 0.05 显著性标准就演变成我们现在学刊审稿和教材示例默认传统。学刊审稿体制演变形成单一的默认标准也许有道理,历史传统因循 0.05 就不是因为这个数值本身学术上有什么特别道理。

下图是斯皮尔曼工作的一个直观图示。横坐标的变量名字跟纵坐标的变量名字完全一样,里面画的就是它们互相的相关系数,对角线是同一个变量与自身的相关系数 1。

图片

这个图告诉我们什么?不同颜色的上下两批变量测的是两类概念,根据这个图示,我们会怀疑,这里面测量到了两种概念,每种概念内部测的与这个概念有关系的一组变量,彼此之间就会有比较高的相关,在图上画成绿色。

第一类概念变量和第二类概念变量的相关就比较低,在图上用黄色到红色的图示一目了然地表现出来。再看第一类概念里面,好像又可以分出一个小的概念(前 6 个变量)和一个大一点的概念,这是因子分析的直观思路。

这整个研究方向是由斯皮尔曼和他领导的伦敦学派开创。他和卡尔·皮尔逊在同一个大学教书,虽然都是高尔顿学术的继承发展者,但俩人的个人关系非常紧张,经常针锋相对。皮尔逊主持遗传学系(当时叫「优生学系」),斯皮尔曼主持心理学系。

(围绕推断与预测的)现代统计学不是生物统计和心理统计的前身,而是生物统计和心理统计开创史的延伸。其中多元统计这个大领域,是由斯皮尔曼的学派主要开创的。

历史上第一个造计算器去算相关系数的统计学家是个心理学家,叫克拉克·赫尔(Clark Leonard Hull),是 1930 年代~1940 年代整个心理学界的领袖。他的声望被布鲁斯·斯金纳(Burrhus Frederic Skinner)取代之前,他在心理学界的座次就是现在斯金纳的心理学史座次。

赫尔的学派叫「逻辑行为主义」,在 20 年代刚刚出道的时候,他就擅长研究测算心理学变量的相关系数。为了算相关系数,他发明了下图中的计算器,把数字用纸带读进去,把两列数字的相关系数输出。

相关系数可以说是整个心理测量最核心的统计工具。

图片

继承皮尔逊的第二任高尔顿讲席教授是罗纳德·费舍尔。

下图中的公式,可以了解一下。皮尔逊相关系数如果做一个简单变换,会比较像正态分布,这么一变化,就可以做各种各样的统计检验,以及算它总体相关系数的置信区间。

图片

费舍尔不是高尔顿的徒弟,他是里奥纳德·达尔文(Leonard Darwin,查尔斯·达尔文之子)的徒弟。

下图是费舍尔的代表作,扉页题词敬献业师 Leonard Darwin。

图片

费舍尔当选皇家学会院士的时候,他给里奥纳德写信说:「我知道您会非常开心,就像我的父亲假如能看到我当选院士。」他们这种终生的师徒关系,情同父子。高尔顿和皮尔逊也是这样一种情同父子的师生关系。

图片

所以我们发现,这几位现代统计学的重要开创者都是达尔文演化论的学术后代,或者说,都是达尔文-高尔顿家族的学术后代。下图是(引自维基百科的)大致时间线。

图片

查尔斯·达尔文在二排最左侧,费舍尔参与的工作在最下方,马尔萨斯(Thomas Robert Malthus)在第一排最左侧,他的工作是人口论。人口论是说,像瘟疫、战争这些外部因素,会和人口指数增长趋势互相作用。这直接启发了达尔文提出自然选择。

演化论最后成为科学学说是在第二次世界大战前后, 20 世纪早期就开始这个工作了,但是到第二次世界大战之后才完成。这个学说有个学名叫做「新综合*」*(Modern Synthesis),或者叫「现代综合」。

参与现代综合的学者很多,其中比较重要的、似乎没有比他明显更为重要的人物,就是前面介绍的统计学家费舍尔。

费舍尔获得很多赞誉。对于生物学家,他相当于是新时代的达尔文,他是达尔文最重要的继承者;对于农业学家,他相当于是袁隆平在中国的地位,因为他的实验性农业研究,使得那个时代全球农业产量有实质性的提升。

图片

对于心理学家,现在所有心理学家写的研究实验结论,大部分都用到他的方案,报告 p 值。

这是一个贡献,也是一个流毒,经过他的方法熏陶过,很多同行都不懂他们做的结果描述统计层面是多大,只知道能不能被审稿人和刊物的编辑接受。p 值达到了 0.05 的阈值以后,好像就有了个敲门砖,但就不知道 p 的数值是什么意思。

那个 p 确实不可能知道是什么意思,不是说不能在数学上把它讲明白,而是说它讲的 *p* 值,是在一个想象的、跟真实世界互相冲突的另外一个世界里的概率。

这样一个想象的概率,在生活经验里没有直观经验对应。你可能会在生活的真实世界找对应的概念,到底算出的这个 p 值是真实世界里的哪个概念,其实哪个概念都不是,它只是一个跟真实世界互相冲突的、另外一个世界里想象中的概念。

因为它在真实世界里没有对应物,所以你对它的任何基于真实世界直观经验的理解都是误解。这是现在做定量实验的各种学科,包括生物学、农学、医学,以及越来越多的定量模型研究的社会科学,几乎全部的研究者被费舍尔 p 值概念绕进去的巨坑。

05 以色列空军飞行教练:踩与赞

最后这个例子是,以色列空军飞行学校的教官,采用心理学家推荐的一个行为主义策略来训练学员。学员每次完成优秀的飞行动作,都会受到及时的口头表扬。这个训练策略经过一段时间的实践,教练发现跟心理学原理的预测刚好相反。

表扬完以后,学员在下一次飞行时,平均而言会比上一次飞行水平下降。如果学员飞行动作完成得不好,没有被表扬,反而观察到,这个没被表扬的群体,在下一次飞行的表现会比上一次好。

对这个事情,心理学家怎么说?下图两位作者,大家可能对左边的丹尼尔·卡尼曼(Daniel Kahneman)比较熟悉。卡尼曼获得诺贝尔经济学奖的时候,他的合作伙伴阿莫斯·特沃斯基(Amos Tversky)已经去世。

特沃斯基曾经是以色列的伞兵,他参加过好几次中东战争,在其中一次战争中,扛枪跳伞执行战场任务。所以他们这个研究团队,和以色列军方有比较密切的联系。他们的文献写到一个空军飞行学校教官的例子。

图片

回到下面这张图。

图片

直到这个时候,前面高尔顿操心的问题才算是真正解决了。为什么?皮尔逊解决了高尔顿的问题之后,仍然有很多人不能够接受这个结论。

为什么用父亲的身高去预测孩子身高的时候,会向平均数去回归,是不是有一个神秘力量在背后促成这个统计客观现象?

卡尼曼和特沃斯基解答了大家的疑问,为什么你会这么想?因为你会本能地相信,高个子父亲的孩子的平均身高,应该就是这批高个子父亲的平均身高,大家都本能地相信这个信念。

这是一个心理学现象,不是一个数学、统计学现象。在没有人类的世界,它不构成一个问题,因为没有人去这么想,而客观世界还是按照相关系数的规律向着中心趋中。

结论是什么?因为有一个心理学的错误对比参照点,所以趋向中心的回归被认为是有神秘力量在让它发生,这是一个心理上的因果模型:要有一个原因,才能使它偏离你心目中认为公平的那个位置。

卡尼曼和特沃斯基最后发现,这个公平位置是一个心理学问题,不是一个统计学问题。根据他们的学说,人类会本能地做这样的预测:认为孩子的平均身高跟其父亲的身高是一样的。

这个预测本身是错的,而观察到的现象其实无所谓对错,你就是观察到这个现象了。然后用一个错误的对比基准,让你观察到的现象有一个附带出的特殊意义,从这个错误的起点向正确的观察结果回归。

其实根本不是回归,它本来就在这里,没有任何特殊力量驱使它。而你认为它被驱使回归的出发点,是基于你这个物种的本能想法。

我们现在回答了,从人类的本能、心理学的本能到统计事实之间的距离。

今天的主题是什么?没有对比就没有伤害,或者没有对比就没有统计。统计最重要的东西,是选好那个恰当的对比标准,如果你找的是错误的对比标准,它会给你一个特别的错误结果。

图片

所谓的因果,就是你现在看到的事实跟另外一个对比的东西,我们把它叫做反事实、假想事件之间的反差,这就是那个原因造成的结果。

现在已经知道,趋中回归不是单纯的统计学现象,主要是心理现象,在没有人类的世界里没有这个问题,只有有心理的世界才有这个问题。

有一个事实,你还要去找一个对比,这个对比怎么找?很多时候是做实验,就是让你随机抽取的另一批被试吃假药,有这一批吃假药的被试,你才能知道吃真药的那一批被试中,药到底起了多大作用。

你要有反事实的对比,这就是为什么现在必须做双盲实验,才能够知道药物有没有安慰剂之外的效果。

为什么要找一个尽可能精密的、严密的、没有任何借口可以解释的对比基础?要做到特别严密,一个重要的地方是,不能让这个药吃出味道。所以做实验的药是要用胶囊包起来的,你在吃这个真药时,跟吃假药在口中的味觉是完全一样的。

不只是你不能区别出这两种药,当时给你发药的实验人员都不能区别出来,他手上只有数字。过了整个实验周期,大家都抄好数字之后,之前编排这个数字的随机数表才被公布出来。这个时候就叫「揭盲」,揭开双盲的意思。

这里的双盲是指,吃药的人不知道自己吃的是真药还是假药,给你药的人也不知道手中的是真药还是假药。因果操作化的意思就是,如果把药这个原因换成假药这个原因,那么两种结果的反差怎样,这个时候要做一个对比。

回到之前的问题,如果伯克利研究生院的男生,想知道女生到底有没有占了他们的便宜,要怎么做研究设计?

只看到女生在每个学院都比男生录取率高,不能就下结论说,性别在里面起到了作用,为什么不是另外一个变量起到作用?比如,女生成绩确实比男生好,那不是性别造成的歧视,是成绩造成的歧视。成绩造成的歧视就不叫歧视了,叫做德能配位。

这批男生要怎么办?你要找到那个反事实。什么叫反事实?只把性别改掉,其它东西不改。这批男生要把已经做好的申请材料,随机分成两组,连分的人都不知道,每组分的是男生的名字还是女生的名字。操作过程中,给他贴了男生的名字和女生的名字,然后把这些材料送到研究生院的各个院系招生委员会,让他们判断收还是不收。

现在你手上就有反事实了,也就是原来的男生如果变成女生,或者原来的女生变成男生。最严格的情况,当然希望同一批人又有男生又有女生,各做一遍,但这样做会有其它技术上的麻烦。

所以我们是用统计的办法,让标成男生的这个类型跟标成女生的那个类型,在所有变量上都跟性别没有任何关系。也就是说,男生任何变量的分布跟女生任何变量的分布,在总体上都是一样的。所谓总体是说,如果人数够多,他们一定会变成一样的。

这个做法是什么呢?就是拿一个假随机数放进去,就是伪随机数。这个伪随机数有什么特性?它能够做到跟真实生活的任何研究变量都没有一丁点预测关系。他报告男生时其它变量的分布特性,跟报告女生时其它变量的分布特性完全一样。

如果你看到不一样,那是因为随机性造成的影响,这个影响我们用统计的办法把它控制住,通过足够大一点的样本量,把统计造成的波动在平均数上缩小到足够小的范围。

用前面提过的费舍尔的方案理解,*p* 值缩小到足够小的范围的时候,标准误就特别小。标准误特别小的时候,你看到的结果就特别可信。如果加减两个标准误之后,定性有效的结论仍然成立,这就是说,结果真的不能由随机性解释了。

最后这一段,没有学过统计的同学可能听得比较模糊。那么回到简单的命题,就是描述统计问题。如果看到男生女生的数据,我们说是性别造成的影响,这到底是在说什么?

是在说,如果把他的性别隐匿,其他东西都不改,结果不是这样了,结果应该是一个对于两性公平的结果。如果我随机分配他的性别,结果应该是公平的,被随机标成男生跟被随机标成女生的录取率应该是一样的。

回到我们的工学院和商学院的例子,当你改完性别以后,结果发现原来报考商学院的女生在材料上改性别后还是报考商学院,新的录取率不变,没有变成原来男生的商学院录取率,更没有变成男生全校录取率。

这是你看到的反事实的基础。如果你找到了正确的对比,就能够得到结论,到底性别有没有改变你心目中的那个公平的结果。

最后讲一个更加不容易想到,但是说完以后大家都会明白的方法论上的简单道理。

有两批学者在争论,国家权力集中到中央的体制,对经济发展好还是不好?两批学者可以看到同样的数据,他们对看到的数据也可能是没有任何分歧的。他们不一样的地方在哪里?他们心目中反事实的想象是相反的。

其中一批学者可能想象,如果权力从中央向地方分散,经济发展会变成印度或巴基斯坦那样的水准。另外一批学者会认为,如果权力从中央向地方分散,变成市场主导,经济发展会向韩国和日本的水准靠拢。为什么呢?

前一派学者认为,中国的人口规模、发展基础和印度、巴基斯坦比较,可以类比;后一派学者认为,我们的文化、生活方式跟日韩这两个国家比较,可以类比。

现在得到的方法上的启发是什么?这两批学者之所以得到不同的因果结论,是因为他们心目中对比的反事实是不同的,不是因为他们看到的实证事实不同。想象不同的对比物,给他们带来了不同的研究结论。

06 小结

最后回顾一下,今天讲的五个例子背后的统计学干货。

图片

第一个例子背后的干货是,什么叫交互作用。一个自变量造成了因变量的实验效应,另一个自变量把这个实验效应又改变了一下,这个差之差就叫做交互作用。男生的实验效果比女生的实验效果好多少,就叫做交互作用。这个实验效果本身是一个差,吃真药减去吃安慰剂的差。

如果只研究一个研究分组的变量,就不叫交互作用了,叫做实验效应。这个实验效应是对比出来的,不是观察到的一份结果,而是观察到一份结果后,还要去看另外一个对比基准。这个对比结果理想的情况是我们用实验给做出来。

第二个例子背后的干货是,我们做预测时,有一种变量叫被我们控制的变量。什么叫被我们控制的变量?这个控制不是控制组的控制,我们一般把控制组控制的变量翻译为实验变量或者叫做操控,而不是控制变量。

英语上是两个不一样的词,一个是 control,一个是 manipulate。manipulate 表示我可以操控它,控制的意思是我可以用这个变量的信息去分组,我只在分好的组内做预测,不把各个组混淆起来,这个就叫预测时的控制变量。或许把它叫做协变量,就不容易跟实验组对照的那个控制组混淆。

第二个例子里的控制变量或者协变量是什么?就是学院。一开始我们如果没有拿到学院的信息,真的不知道女生比男生占便宜。等我们拿到学院信息之后,才知道每个学院里女生都比男生占便宜。

第三个例子讲的主题是对比。如果你对比的东西是假的或者是明显不对的,这个对比就叫做「稻草人谬误*」*你树立一个很容易被打倒的东西,就会给人一种错觉,你的命题非常正确。为什么?

相对于那个稻草人非常正确,其实你的命题本身是无足轻重的。如果不是相对于稻草人,而是相对真实的、正确的对比参照点,你的命题就经不起推敲。

第三个例子对比的参照点是,80 岁以上的长者这一年里的平均死亡率,应该用什么比例去对比。

参照点是 8.33% 类似数量级的数,而不是日常生活中以为的我们周围的人明年还都会在我们身边,后者只是大多数人的先入之见。在老人院就没有这个先入之见,因为在老人院里会不断地体验什么叫人间过客。

第四个例子讲的是相关系数的预测和趋中回归,但你不要把趋中回归这个词理解成我们现在的术语:回归的预测。这个趋中回归就是字面上的意思,向中间靠拢。

相关系数我们的的用法是,预测的变量增加一个标准差,X 增加一个 X 的标准差,问这个 Y 预测值会比 Y 的平均值高出多少个 Y 的标准差。如果高出的是 0.6,他们之间的相关系数就叫做 +0.6 的相关。

预测的两个方向都是一样的,你如果知道 X 开始变 1 个标准差,Y 的预期也会跟着变 0.6 个标准差。反过来,Y 变 1 个标准差,X 的预期也会变 0.6 个标准差。

这时你会发现,不能把预测结论倒推为「Y 变正 0.6 个标准差,X 的预期也会变 1 个标准差」,因为这里面重要的一个形容词叫做预期,当你说「Y 的预期也会跟着变 0.6 个标准差」,不是 Y 固定变了 0.6 个标准差,而是 Y 围绕着变 0.6 个标准差预期为中心展开分布。

最后一个例子讲的是,统计学里的因果其实是找对比的东西,找原因的另外一面。原因的这一面和原因的那一面,两面我们都要看得到。如果两面的事实结果都看到了,这就是实验设计。

实际上在社会学、政治学这些学科,很难做到两面都能够做实验去看到,我们只能看到现象的一面。但我们有一个想象中的另一面,叫如果公平的世界,那会怎样?正是因为有如果公平的世界,才会有最后的因果的结果。

今天的讲座就到这里,谢谢大家!■

感谢逗妈、hyeebeen 整理文字稿。