在大数据时代,每个人都需要掌握统计学知识

发表时间: 2023-10-13 18:22


在大多数人心目中,“统计”两个字往往意味着诸如某市最近一次人口普查结果、制造业工人的平均收入等一堆枯燥乏味的数字和复杂的数学公式,令人望而生畏。


实际上,日常生活中人们已经在不知不觉中应用了统计。比如,你每天读书或者上班有多种线路可以选择,为了确定哪条线路更方便,你会沿着每一条线路反复走几次,然后根据你认为的某些重要条件,如时间长短、红灯数目甚至路边的景观等,选择其中最合适的一条线路。这个行为实际上就是一种统计,因为你对多条线路的情况做了采集和比较,从中获取了有用的信息并加以处理,最终帮助你做出决定。


当面临比以上情况更为复杂的信息时,如何更巧妙地改进收集和处理信息的方法、掌握面对不确定因素时的决策方法?在当下这个大数据时代,人人都需要懂点统计学~


01

如何应用统计来发现规律、验证关系

生活中某些明显的差别用眼睛就可以观察到,比如说:男性的平均身高要超过女性等。但是世界上还有许多现象和规律,单靠眼睛观察是不够的。


如果有人告诉你“蓝色牛仔裤在某几个月比其他几个月卖得更好”,“莫扎特的音乐可以提高智商测试中与空间辨别力相关的成绩”,你会相信吗?这些关系都不是凭肉眼可以观察到的,而需要采用适当的统计方法研究以后才能加以证实。


那么,怎样才能使人相信你所发现的规律?下面我们举一个简单例子,为了证明“在静止状态下,男性的平均脉搏数要小于女性”,读者可能会先测量自己每分钟的脉搏数,再找一个异性朋友测量一下,最后进行比较。问题是这样是否能足以说明上述结论的正确性?答案显然是否定的,因为一组数据根本无法代表所有的男性和女性。


上述例子告诉我们,对于未经训练的人,要求其用严格的方法来完成某项研究是不太容易做到的,但是经过简单的训练后,他们大多能够理解专家在研究中所采用的方法。


下面的内容将围绕定量分析研究中的统计方法展开,我们结合上述例子来说明其中的3个要点。


样本要有代表性


为了体现研究成果的重要性,大多数研究人员希望将基于部分参与者的研究结果推广到更大的群体,这样的话,研究对象在大群体中是否具有代表性就十分重要。为了便于叙述,以后我们将参与研究的对象或者人员称为样本,样本所属的大群体称为总体。


对于心跳比较问题,将某个班级同学的脉搏数作为样本可能是一种比较便利的方法,但是如果此班级中存在影响心跳与性别关系的因素(例如,学校男子田径队队员全部在此班上),或者研究者希望把结论推广到和此班级同学年龄分布相差较大的年龄组,那么上述样本的代表性是有问题的。尽管如此,还是有许多研究人员会因为这样或者那样的原因而被迫使用类似数据作为样本,这种样本通常称为“便利”样本。


样本要足够大


即使有经验的研究人员也经常会因为忽略样本个数的重要性而得出错误的结论。还是以心跳问题为例,我们知道,将自己的脉搏数和一位异性朋友的脉搏数比较一次就去验证上述结论肯定是不行的,那么,该比较多少人才算数?2个人还是4个人?100个人够吗?这取决于研究者采集的脉搏数的差异程度。


如果连续几次测量所测得的男性脉搏数都是每分钟65次,女性都是75次,那么很容易得出男女脉搏数存在差异的结论。但是,如果男性脉搏数为每分钟50次到80次之间,女性脉搏数为每分钟52次到82次之间,凭直觉我们知道需要测量更多的数据,但问题是我们究竟需要多大的样本?本书会告诉我们如何根据两组测量结果的差异确定所需的样本数。


研究方法要明确


验证某个关系,一般有观察法和实验法两种方法。如果研究人员只是对样本的某些事项感兴趣,一般采用观察研究就可以了。比如对于心跳速度差异问题,我们只需观察(记录)样本中每个人的性别、脉搏就足够了。


但是,对于“常服阿司匹林可能会防止心脏病突发”这样的问题,单纯依靠观察某个人是否常服阿司匹林以及他是否得了心脏病是不够的,因为那些关心自己健康的人在常服阿司匹林的同时得心脏病的可能会少一些,而那些不关心健康的人不常服阿司匹林同时也容易得心脏病。


为了证实因果关系,必须做实验,也就是先采用类似扔硬币的方法,把样本随机分成两组[这个过程称为随机指派],然后给其中一组服用药片,另一组则服用外观和真药一模一样的替代品。同时,为了避免实验对象受到我们期望结果的干扰,在实验结束之前所有的人员都不知道自己服用的是药还是替代品。


02

使用不当,错误难免

在生活中,由于对统计方法的理解和使用不当而造成的错误、笑话屡见不鲜,试举几例。


样本不当

.

在1986年美国总统大选期间,某杂志报道:调查表明美国克莱斯勒汽车公司总裁艾柯卡在共和党总统初选中将以54%比46%的得票率击败当时在任的美国副总统老布什。从新闻角度来讲这可算得上是一件大事情,但仔细阅读以后,我们就会发现这是一项基于该杂志2000位读者的问卷调查。


由这些读者组成的样本能否代表全体美国选民这本身就存在着问题,更何况上述结论只是根据前200份答卷整理而成的。一般情况下,最先收到的答卷往往来自对调查问题有强烈反映的,尤其是希望换总统的人。所以,这个“样本”无法代表所有参加共和党初选的投票人组成的“总体”。


指标不当


美国环保署的一项调查表明:1993年新泽西州的有毒化学物排放在全美各州名列第22位,新泽西州环保局因此受到好评。这项调查的权威性当然毋庸置疑,问题在于这项排名的依据是排放总量,而新泽西州是全美面积最小的州之一,如果将排放总量换算成单位面积排放量,该州将以第4名的成绩名列前茅。


方法不当


某报曾以“研究表明:吸烟可能会降低孩子智商”为题刊登美联社的一则消息,该消息的主要内容可以归纳如下:


研究人员发现:二手烟对小孩的智力测试成绩几乎没有影响,但怀孕期每天吸烟10支以上孕妇的孩子,在3~4岁时的智商测试成绩将比其他同龄孩子低9分。如果排除其他相关因素,例如二手烟、饮食习惯、受教育程度、年龄、药物作用、父母智商、父母抚养能力、母乳喂养时间等,差别将缩减为4分。吸烟对儿童智商的影响与中等强度铅照射相当。


为了吸引眼球,这篇报道赫然以“研究表明:吸烟可能会降低孩子智商”为题,给读者的印象是“吸烟”和“低智商”有因果关系。可是读完报道,读者会发现上述结果所基于的并不是实验方法,因为实验就必须规定孕妇去吸烟或者不吸烟,显然这是不人道的,所以这实际上是一种观察研究。


在这种研究中,人们无法排除其他因素对吸烟母亲和孩子智商关系的影响,最多就是将这些因素量化以后用统计方法得出适当的结果。我们注意到,在经过类似处理后,孩子智商差别从9分缩小为4分,即使这4分的差别我们也不能排除是由于其他未知原因造成的。因此,仅凭观察研究我们无法确定这是一种因果关系。



今日荐读


让数据告诉你(第二版)

陆立强 编著

梁玲 编辑

2023年7月,复旦大学出版社



在五彩缤纷的现实世界中,到处充斥着数字。这些数字有时会让人看得眼花缭乱,使人心绪不宁。因此,数据的收集、处理、分析尤为重要。掌握正确的数据收集、数据处理、数据分析的方法,由表及里、去伪存真,是人们在学习、生活、工作中必不可少的。


本书用一种比较通俗的方式介绍数据分析的基础知识和基本方法,以帮助人们全面理解和正确把握数据、培养定量化的思维方式。本书具有以下特点:叙述浅显,书中假设本书读者没有学过“高等数学”课程,所以全书没有包含任何数学公式的推导,而采用叙述的方式引入重要的概念,同时把计算公式压缩到最低的限度;案例丰富,书中大量采用案例引入主题;内容完整,本书除介绍数据采集和数据分析外,还介绍了概率和数据决策方面的内容。现有中小学教材中的统计知识基本都可以在本书相应章节找到背景介绍、较为详细的分析和丰富的案例,因此本书也可以作为中小学统计教学的参考书。




本期编辑 | 李映潼

转载及合作请联系:liyingtong25@163.com