李晓煦:没有对比就没有统计(上)

李晓煦 开智学堂

开智君说

任何严谨的心理学研究背后,都基于统计学的扎实推演和不断质证。但统计学教材往往晦涩难懂,如何更好地入门统计学呢?开智曾邀请《三生有幸》作者、曾师从国际心理统计学泰斗侯杰泰老先生的李晓煦老师,为大家奉上一堂统计学入门公开课。他通过五个案例,让大家明白,统计最重要的东西,是选好那个恰当的对比标准。一休整理了公开课文字稿,与你分享。稿件较长,分上下篇发出,本文是上篇。

作者:李晓熙 来源:原创 正文共 5829 字,预计阅读时间 15 分钟

大家好,今天要讲一组比较著名的统计例子,这组数据中,除了一个是虚拟的数据,其它都是真实数据。

图片

1、泰坦尼克号上的死亡和生存,有哪些因素可以预测、怎么对比;

2、加州伯克利分校研究生院的一次女权主义事件;

3、新冠确诊「八零后」(这里面的「八零后」是指年龄大于等于 80 岁的长者);

4、相关系数。这个例子是说,如果父代的高度(这个父代不一定要是动物,也可以是植物)比较高的话——比他们所在的种群平均值会高一个标准差,那么他们的孩子平均高度会是多高呢?通常算出来的结果,应该是高 0.7 个标准差。这样一个反直觉的例子,在现代统计学开创史的大背景下,有哪些参与的学者?

5、以色列的空军飞行教练训练学员,如果学员飞行成绩超出预期,就表扬他;如果低于预期,就批评他。简化的情形,如果预期就是所有学员平均水平,那就变成高于所有飞行学员的平均水平时获得表扬,如果低于所有飞行学员的平均水平时获得批评。从心理学角度看,学员被批评后能够将不好的地方改正,表扬以后原来飞得好的地方会飞得更好,但观察到的结果与表扬的预期效果相反。

01 泰坦尼克:死与生

图片

上图是泰坦尼克号的几个重要变量。性别,左边是男性,右边是女性,只包括成年人的数据,没有小朋友的。红色面积代表死去的人,绿色面积代表幸存的人。

左、右,红、绿之外,从上到下是他们的舱等,有头等舱、二等舱、三等舱,最后一类舱等是船上的工作人员。右边女性成年人也有四个仓等,这些都是真实的数据。

如果是你,预期自己会坐在哪个舱等?头等舱、二等舱还是三等舱?当时的中产阶级,多是坐二等舱。如果你是一个男性中产阶级,可能发现自己处在最不利的类型里面了,对不对?电影的男主角在哪里?在三等舱,是死去的那些人。电影的女主角是头等舱幸存的女士。

上图这种表现形式特别好的地方是,把人数和比例都完整地表现出来了。但在统计课上,一般不会教画这种图,可能会教画平均数。

什么是平均数?比如,我们把上图每个人都标记为是 0 和 1,0 代表死亡,1 代表幸存。那么每个类型里面幸存的百分比,就是 0 和 1 这些数字的平均数。

下图是新的表现形式,有头等舱、二等舱、三等舱,工作人员他们的幸存百分比,也就是他们这些 0 和 1 数字的平均数(右图顺时针旋转 90 度,再左右镜像,绿方块高度百分比与左图一致)。可以看到男性的最低点是在二等仓,女性的最低点是在三等仓。

图片

我们学统计,最难懂的一个概念是什么?交互作用。很多同行即使学了统计学,知道交互作用怎么算它的显著性,但交互作用具体多大他也说不出个所以然。

我们说显著性的时候,不是说它大,而是在说它的标准误小。它这个数字多大,是一个描述统计的概念。但它有多么显著,是在说它在推断统计上有多精密,这个统计上的精密程度叫标准误。

交互作用的大小是什么呢?就是两个数相减。比如,泰坦尼克号例子中,男性二等舱和三等舱生存率的差距,跟女性二等仓和三等仓的生存差距差,再作一次减法,也就是「差之差」。

如果你对这个差不太了解,可以把三等舱理解成是控制组或者安慰剂组,二等仓理解成是吃药,那么,吃药的效果比吃安慰剂好多少、改善了多少呢?这就是一次减法,这样的减法,叫做「实验效应」。

如果男生跟女生实验效应不一样,我们会问,这两个性别的实验效应差距有多大?也就是实验组控制组减完以后再两性减一遍,把上图左边蓝线平移上去靠近红线,让两性的控制组对齐,然后看实验组开口有多大。这样一个普通的减法,把减完以后的两个数再互减,就叫做交互作用。

图片

性别改变了多少实验效果?上图右边,性别画在横轴,四个舱等画在图例,挑了里面的二等舱和三等舱。实际上左边和右边的信息是一样的,可以看到横的高度都能够对应过来,只是它的标签,一个画在横轴,一个是画在图例。

经常看到的交互作用图示就是这样子,如右边两条线的交叉,但实际上讲的交互作用,是说这两条线的斜率相减,跟它交不交叉没有关系。

左右两幅图讲的是同样一件事情,但左边的图并没有交叉,右边图有交叉,它们斜率的相减是一样的。

从死亡率的折线图可以看到,性别改变了什么?性别把男性的负数改成了女性的正数。女性的正数比较大,男性的负数比较小,与对应的三等舱相比,男性二等舱是更糟糕的,女性二等舱是更好的。

现在,你可能对这个图熟悉一点点了,就能够更方便地去看下一个例子——伯克利研究生院的一次女权主义投诉。

02 伯克利研究生院:女与男

这是真事,1975 年有论文发表。伯克利研究生院被学生投诉,为什么女生平均录取率要比男生低得很多?于是就有一个调查。

结果是,几乎每个系女生录取率都高于或者等于男生。不是每个系都高,有两个系的女生录取率稍微低一点点,但低的程度很不明显,而女生录取率高的系,就高得很明显了。

下图是具体的数据,可以看出,第一个院系的女生录取率是 82.4%,男生是 62.0%,这个相差很大吧,后面所有院系的差距都没有这个院系的大。而且这六个院系里,有四个院系的女生录取率都比男生高。

图中下半部分是所有院系合并算出来的(左右男女×上下录拒)图示。在这个图中,为什么男生总的录取率就比女生高了很多呢?用一个特别简化的例子,一讲就明白。

图片

这个例子如果理解了,那更多院系的例子,也很容易理解。但它太简化了,以至于好像特别好明白。在这个极端简化的例子里面,只有两个院系,一个工学院,一个商学院。

工学院女生录取率是 50% ,比男生占百高出 10%,男生录取率只有 40%;商学院女生录取率是 25%,男生录取率是 15%。

如果女生看到这个数据,是不可能去投诉研究生院的,除非她觉得男朋友被欺负了。那为什么在伯克利的真实案例,女生的录取率变得很低,男生的变得很高?

对整个研究生院来说,道理很简单,因为合并两个学院算全校平均的时候,不是算简单的平均,而是用数据加权的。

如果女生都报考了商学院,那商学院女生就是全校女生平均,图示如下图灰线左值;男生都报考了工学院,工学院男生也就是全校男生平均,图示如下图蓝线右值。谁高谁低,最极端的这种情况,一说就明白。

图片

假如女生有 80% 在商学院,20% 在工学院,那加权的平均数会跑到上图绿线位置,这个比例怎么看呢?

上图灰线和绿线、蓝线和绿线左端顶点间形成两段差距,这两段差距就是距离平均数的「离均差」。蓝线左端和绿线左端的差距是灰线左端和绿线左端差距 4 倍的时候,就有 4 倍于上面(工学院)的女生在下面(商学院)。

现在看到的结果是,整个研究生院女生的录取率比男生的录取率明显低很多。至于有多明显,这可能是学过统计的人会去深究的事情,我们就不用深究它到底有多明显、怎么叫做明显了,只需看看平均数,明白这个事情是怎么回事就行。

这是第二个例子,这个例子有比较多的东西可以展开讲。

一个比较直接的结论,在预测一个个体录取率的时候,不应该用整个研究生院的录取率,或者其性别的整个研究生院的录取率来预测。如果知道这个人报了什么院系,我们就应该用那个院系内部其性别录取率来预测。

再往下说一点,如果你都面试过这个学生了,还需要这样预测他吗?不对的,你应该用他的真正表现,而不是一个更大群体的平均数来预测他。也就是用他各种特性能够对得上的平均数来预测他。这是我们一般说的预测原理。

这造成生活里一个什么明显现象呢?歧视。什么叫歧视?就是我用你不能够改变的一些变量,去预测你带有道德含义的一些东西,比如说预测你的品行。如果所给变量背后群体的平均数品行是比较低的,这个预测就自然而然发生歧视了。

这里面的重要变量是什么?我看到你的时候,第一眼能够认出的变量,经常就是族群。为什么你会被归类到这个族群那个族群?就是因为它构成一个特别容易识别的变量。所以,一个族群的平均数就很容易被用来预测陌生人,这就是歧视背后的一个基本原理。

03 新冠确诊「八零后」:命与寿

图片

这个例子也是真实的,数据来自知乎作者 @Chenqin。上图有三组数据对比,统计了四个年龄段的人群,最后一个年龄段,就是标题里的「八零后」。

三组数据类别是什么呢?蓝色柱状图是意大利伦巴底大区新冠确诊后的死亡率,橙色柱状图是武汉后期的情况,灰色柱状图是武汉前期的情况。

为什么要了解武汉前期的情况?就是因为伦巴底大区病情现在发展程度,是不能跟武汉病情现在的发展程度对比的,但是可以跟武汉中间的某一个时间点对比。把那个时间点的数据单独算出来可以看到,武汉的情况都是比伦巴底大区的情况要糟糕。

最后合并的情况是怎么样的呢?知乎作者 @Chenqin 在文章里说,伦巴底的死亡率几乎是武汉的两倍,这个结果很意外。在图中看到,伦巴底每个年龄段的死亡率,都比武汉当时和现在的死忙率要低。但整个确诊人群的死亡率,伦巴底就是武汉的两倍。

原因用之前的原理解释很简单,伦巴底太多老年人,伦巴底患病群体里有太大比例的 80 后,而武汉则没有那么大比例的 80 后在患病人群里。所以最后算出的总死亡率,伦巴底将近是武汉的两倍。

让我印象深刻的描述性的数据还有,意大利新冠死亡人口 99.9% 是 50 岁以上,50岁以下死亡的只有千分之一。其中 70 岁以上的死亡患者,占总死亡人数的 90%。

这种数据会让我们有一个很清晰的印象,新冠是一个老年人的高危疾病,主要危害老年人群体。来看具体的死亡率有多么高,在伦巴底, 80 后的老年人患病死亡率是 26%,武汉是 30% 多一点。也就是说,平均每四个人或者三个人中间会走掉一个,这个死亡率很惨。

再看另外一份发在《BUSINESS INSIDER》刊物上的数据,它的引用来源来自于数据来源地国家级的权威研究部门。

下图左边是流感,右边是韩国新冠数据,为什么特别关注韩国的数据?因为韩国的检测做得特别到位,几乎所有想参加检测的人,都可以比较快地获得检测。

图片

这样做有什么好处?它的分母是很扎实的。这个图被很多自媒体转来转去,主要目的是想警告大家,新冠病毒不是大号流感,但是用这个图来讲这个命题,实际上是偷换概念。

可以注意到,韩国80 岁以上人群死亡率是 8.23%,跟前面伦巴底和武汉的数据相比,好了很多是吧,它差不多是伦巴底死亡率的 1/3。

你看这个图,第一印象会受到一个错误的影响,认为图中左右两边的年龄段对得上,互相之间有可比性,实际上没有可比性。左边有一个是 65 岁以上的长者,但没有 80 岁以上长者的情况。

真正能够对得上、有可比性的年龄段是什么?30 岁以下。图的右边是从 30 岁开始的,30 岁以下没有死亡个案,或者说几乎没有,也就是用分母除完以后,小数点后到万分之一以后了。

实际上这份数据是说,对于 30 岁以下的群体来说,韩国新冠病毒的死亡s还不如流感那么严重。这对在座同学来说,可能是一个鼓舞人心的重要信息。

30 岁以下人群流感的死亡率是多少?看图中左边可以知道,它的数量级是在小数点后的第二位,18-49 岁的平均是 0.02%。5-17 岁,是小于 0.01%。

但我现在讲的这个事实,绝大多数人不能正确地理解。最右的 8.23% 死亡率是什么意思?当你知道左右两个图不能对比时,可能还会把右图不同年龄段拿来互相对比,认为对 80 岁以上的长者来说,新冠病毒是一个特别严重的疾病。

相对于 50 岁以下的人群来说,80 后与 50 前两者差别特别大。因为 80 岁以上长者死亡率高了很多个数量级。但这可能缺乏一个正确的对比标准。为什么?

看 80 岁以上长者的死亡率,对比标准不应该是图中的其它年龄段人群,而应该是 80 岁长者这个群体这一年的平均死亡率。很多人可能不能够正确地想象,80 岁以上的长者,他们观察到周围的同龄人是在以什么样的速度跟他们告别。

我们为了尽可能简化这个问题,就想这样一个最极端的,大家一拍脑袋就能够想明白的数据。假如这批长者全部人的寿命都是 92 岁,这批长者里每个年龄段的人数一样多,这样的话,这一批长者每年去世的比例就是 8.3%。很多人都没有这样一个对比标准。

有一种典型的假想情况。假如这一年按照统计规律会去世的一定数量长者,他们身上的基础疾病复发,本来在这一年就会去世的,现在集中在病毒传播的这几个星期。

如果感染病毒后又能够治愈的这一批 80 后长者,他们在这一年如果不感染病毒通常也不会去世,而会继续活到明年。那么,感染新冠病毒80后人群整年的死亡率,和不感染病毒的那一批 80 后长者的死亡率是一模一样的。

这是一个合理的对比的标准,大家在被数据吓到的同时,忘掉了这个基本的对比标准。

这个数据其实也在提醒大家,你要更好地珍惜和家里长者共处的时间,因为他们每一年和我们告别的几率,不是我们现在能够切身感受到的。

但你可以拿预期的年龄算一算,假如人类平均寿命是 90 岁,那么 70 岁的长者,每一年预期与世长辞的比例,你可以在头脑里面估算一个数量级。然后好好想想,要怎么珍惜和他们共处的时间,怎么更好地对待他们。

新冠病毒的死亡率,我自己算过一个数据,所有年龄段的,中国湖北省以外其它各个省市的确诊后死亡率大概是 1.4%,但也有很多资料报告,全年龄段新冠患者的死亡率,最低的是 0.4% 。

我算出来的是 1.4%,1% 是一个比较常见的说法。也就是说,周围随机看到的一个人,他如果确诊新冠病毒,就有 1% 的可能会去世,但这个数据你看了可能没有感觉。

换一个说法,假如你现在登上一辆城市轨道列车,车上有 100 个人,车子一年中会出一次车祸,车祸中会有一个人死亡,你还愿意不愿意踏上这辆列车?这不是一个很恰当的比方,但这个比方背后,就用到了刚才的一个知识盲点。

假如整个人口的年龄都是 100 岁,每个年龄段的人数也一样多。那么,这就意味着,我们周围平均每 100 个人里面,有一个人就要在今年和我们告别,成为人间过客。当然,我们都是人间过客。■

注:上篇完,下篇更精彩,敬请期待~