而很多同学备考SAT的时候还没有学AP,或者即使学了也没有选修统计学。为了帮助同学们更好的备考,英度教育SAT*张宇老师今天就给同学们带来史上最详细概念解析:什么是置信区间和置信水平。
让我们先看一个题:
A random sample of 35 four-door passenger vehicles had a mean gas mileage,in miles per gallon(mpg),of 25.9 mpg.The estimate had a margin of error of 2.6 mpg at a 95%confidence level.Of the following,which is most plausible value for the true mean of the mileage of four-door passenger vehicles in general?
A.24 mpg
B.29 mpg
C.32 mpg
D.35 mpg
题目是这样的,我们现在要算一个城市里所有汽车的油耗均值(我的天,鬼知道一个城市有多少汽车,即使知道我们也没办法去测量每辆车的油耗呀?抓狂中….)为了解决这个问题,统计学家想了个办法,就是题中说的我们找了一个样本,这个样本里有35个汽车的油耗数据(注意⚠️:一个样本未必只有一个值!样本是我们用统计学方法得到的一种数据,可以是1个,也可以是很多个),根据这35个数据算出了一个油耗平均值是25.9mpg。而我们的目的是希望通过用这个样本算出来的平均值去尽可能“准确”的“估计”所有汽车的油耗均值,而用什么办法去估计呢?就是后文给出的“The estimate had a margin of error of 2.6 mpg at a 95%confidence level”这个办法。也就是我们接下来要讲的重点:
The estimate had a margin of error of 2.6 mpg at a 95%confidence level这句话的意思是“在95%的置信水平下的边际误差是2.6”。首先我们来看什么是边际误差是2.6?我们现在已经知道了一个样本的油耗均值是25.9mpg,但是因为我们毕竟只是抽了这么一个样本,如果就把这个值当真正的均值未免有些太粗糙太草率了,就好比大家现在玩的微信游戏跳一跳,我只玩了一次,分数是213分(惭愧…),就说所有玩跳一跳的人分数的均值就是213,恐怕说出来都没几个人信。但是如果我查了100000个人的分数,然后算出一个分数范围[132,712],我说真实值会落在这个范围里,这种说法是不是比孤零零的一个213更有说服力?!所以这个边际误差的意思就是我们通过一种算法,在25.9mpg基础上,给出了一个范围,而这个范围就是25.9±2.6,即[23.3,28.5]这个区间,而这个区间就叫置信区间,之所以叫“置信”区间,就是我们“相信”真实的均值很有可能会落在这个范围内。那么到底有多大的可能呢?这就是我们前面说的95%的置信水平(confidence level)。这里我们首先要说明一个同学们最容易理解错误的地方:
错误理解:95%置信区间就是有95%的概率*括真实值
很多同*把95%理解为95%的概率!而95%置信水平的真正意思是:如果我们重新随机选100个样本,按照构造上面这个置信区间(即[23.3,28.5])的方法构造100个置信区间(注意这100个置信区间可能都不一样),会有95个置信区间*含真正的均值,5个不*含真正的均值。
这里对于置信区间[23.3,28.5]有2点理解至关重要:
▶置信区间是随机的,会根据样本的不同而变化,我们题目中算出的[23.3,28.5]只是其中的一个“确定”的区间而已,它的作用是来反衬这种方法的。
▶这100个置信区间一旦算出来就确定了,而真实的均值也是一个确定的值(只是我们不知道而已,上帝知道),两个都是确定的量,对于这100个区间里的任意一个区间而言,真实的均值要么在这个区间里,要么不在,根本不存在以多大的概率落在区间里。例如真实均值如果是26,那么它就一定在[23.3,28.5]这个区间里,如果均值是30,那么就一定不在[23.3,28.5]里。所以我们不能说置信区间以多大的概率*含真实值。
综上所述,对于这个题的正确理解是:我们能根据给的样本均值和边际误差构造一个区间[23.3,28.5],这个区间的构造方法的可信度是95%(也就是说按这个方法构造100个区间,有95个*含真实值),至于[23.3,28.5]这个区间要么*含真实值,要么不*含。
总结一下,对于置信区间以及置信水平的理解有以下2个要点:
1.95%不是概率!我们可以说“we have 95%confidence that the true value is between[a,b]”即我们有95%的信心,真实值会落在这个区间内。但坚决不能说区间有95的probability含真实值。
2.题中算出的置信区间的确是“可能”含真实值的,但是这个“可能”的意思是要么含,要么不含!一般做题时我们都默认这个置信区间*含真实值
更多有关资讯的信息请关注『英度教育』,在线老师会免费提供试听学习资料,在线预约可享受课程优惠!