区间估计and置信区间

如果要讲统计学，第一个概念要从区间估计讲起，这是后续很多方法的基础。

一听：“区间估计”的名字，很多小伙伴会一脑袋问号：

今天的分享就从这里开始

# 一：什么是“估计”

“估计”是指用抽样的数据估计全体的数据情况。之所以这么做，是因为很多时候，想全体采集数据太难了！比如生产真空包装鸡腿的企业，要检查质量，就得把包装拆开，那鸡腿就不能再卖了。这是多大的损失呀！所以必须抽样。

如果直接用抽样数据代表全体数据，就是所谓：点估计。

常见的点估计指标有2个：

平均值：比如抽样鸡腿的平均重量为150克。

比例：比如抽样鸡腿的卫生合格率为99.9%。

但是，直接这么做会有问题，就是：抽样对象不同，点估计值经常有差异。为了解决这个问题，有了区间估计的做法

通俗地讲：区间估计是在点估计的基础上，给一个合理取值范围。

比如：

抽样鸡腿的平均重量为150克，是一个点估计值。

抽样鸡腿的平均重量为145克到155克之间，是一个区间估计。

其中，145到155称为置信区间。这很符合人们的常规理解：东西很难100%准确，有个范围也是可以理解的。

但这个范围有多大可信度呢？人们用置信置信水平来衡量，即：“我们有多大把握，真实值在置信区间内”。一般用（1-α）表示。如果α取0.05，则置信水平为0.95，即95%的把握。

置信区间与置信水平连起来，完整的表达为：“我们有95%的把握，鸡腿平均重量在145至155克之间。”

有小伙伴会好奇，为啥置信水平不是100%！通俗地说，当置信水平太高时，置信区间会变得非常大，从而产生一些正确但无用的结论。

比如：我们有100%的把握，小熊妹颜值在负分滚粗（-10分）与美若天仙（10分）之间……这是句正确的废话。

再比如：我们有95%的把握，小熊妹是个颜值8分的美女（10分满分）……这个结论是不是有用多了！

做区间估计需要四步，不想看原理的小伙伴，死记硬背即可。

第一步：确认抽样对象和要计算的指标（看算平均值还是比例）

第二步：进行抽样，获得样本数据（平均值、比例、方差、样本量）

第三步：给定置信水平（1-α值）

第四步：利用Z分布，求出对应置信区间范围

计算公式为：

只要把公式的参数，套进去即可。其中标准差，Z值/t值，平均值等参数，在各种计算工具里都有现成的公式可以用。

某公司主要针对中老年群体开发产品，用户在购买时无需提供身份信息，因此不清楚用户年龄。

现需抽样，调查其目标客户的年龄是否符合“中老年”的范畴，抽样数据如下，请计算90%置信水平下的目标客户年龄置信区间（如下图）。

再看个比例的例子。某公司想了解用户满意度，而有相当比例的用户没有在商品评价里打分，因此采用调查方法，抽300名未在网站打分用户调查，其中182名用户表示满意，求95%置信水平下，用户满意率的置信区间（如下图）

看到这个结果，反应快的小伙伴已经马上意识到：这种计算能用来验证业务有没有撒谎！比如上例中，如果业务方说“用户满意率肯定在70%以上”这样谎言就被戳穿了。

实际上，也确实是如此操作的。区间估计的方法是做假设检验的基础理论，所以小伙们都得掌握一下。

答：现代企业采集数据的手段丰富了很多，特别是互联网企业，用户的注册、点击、互动数据是全体收集的。因此想了解用户消费情况，完全可以针对全体统计消费率，消费金额等指标。就不需要抽样了，因此用得很少。

但这不意味着运营、产品、销售的同学就不需要掌握这个概念。因为这两年ABtest大行其道，导致抽样实验的方法又形成一轮文艺复兴。

先掌握区间估计的方法，对后边理解单样本/双样本/多样本假设检验，有巨大帮助。这一点，讲到后边大家都理解了。以上就是今天的分享，喜欢的话，记得转发、点赞、在看一键三连，支持下小熊妹哦，谢谢大家。

上次更新: 2023/10/10, 14:48:21