道一站 道一站
首页
  • 历史文明
  • 自我管理
  • 经济金融
  • 未来科技
  • 李笑来
  • 股票
  • 期货
  • 期权
  • 外盘
  • 量化
  • 区块
  • 认知
  • 数理
  • 收藏
  • 前端

    • JavaScript
    • TypeScript
  • 页面

    • HTML
    • CSS
  • 编程

    • C++
    • Python
    • Shell
    • 小程序开发
  • 笔记

    • 《Git》
    • 《JavaScript教程》
    • 《JavaScript高级程序设计》
  • 技术文档
  • Linux
  • Docker
  • GitHub
  • 博客搭建
  • 效用工具
  • 周易基础
  • 奇门遁甲
  • 收藏资源
  • 学习方法
  • 实用技巧
  • 友情链接
  • 分类
  • 标签
  • 归档
关于

daotoyi

静水流深
首页
  • 历史文明
  • 自我管理
  • 经济金融
  • 未来科技
  • 李笑来
  • 股票
  • 期货
  • 期权
  • 外盘
  • 量化
  • 区块
  • 认知
  • 数理
  • 收藏
  • 前端

    • JavaScript
    • TypeScript
  • 页面

    • HTML
    • CSS
  • 编程

    • C++
    • Python
    • Shell
    • 小程序开发
  • 笔记

    • 《Git》
    • 《JavaScript教程》
    • 《JavaScript高级程序设计》
  • 技术文档
  • Linux
  • Docker
  • GitHub
  • 博客搭建
  • 效用工具
  • 周易基础
  • 奇门遁甲
  • 收藏资源
  • 学习方法
  • 实用技巧
  • 友情链接
  • 分类
  • 标签
  • 归档
关于
  • 股票

  • 期货

  • 期权

  • 外盘

  • 量化

  • 区块

  • 认知

  • 数理

    • p 值是什么
    • 区间估计and置信区间
      • 一:什么是“估计”
      • *二:什么是“区间估计”*
      • *三:如何做区间估计*
      • *四:两个简单的例子*
      • *五:这么神奇的方法,为啥平时不咋用?*
  • 收藏

  • 投资
  • 数理
daotoyi
2023-10-07
目录

区间估计and置信区间

如果要讲统计学,第一个概念要从区间估计讲起,这是后续很多方法的基础。

一听:“区间估计”的名字,很多小伙伴会一脑袋问号:

  1. 为什么要“估计”
  2. 为什么还要有“区间”

今天的分享就从这里开始

# 一:什么是“估计”

“估计”是指用抽样的数据估计全体的数据情况。之所以这么做,是因为很多时候,想全体采集数据太难了!比如生产真空包装鸡腿的企业,要检查质量,就得把包装拆开,那鸡腿就不能再卖了。这是多大的损失呀!所以必须抽样。

如果直接用抽样数据代表全体数据,就是所谓:点估计。

常见的点估计指标有2个:

平均值:比如抽样鸡腿的平均重量为150克。

比例:比如抽样鸡腿的卫生合格率为99.9%。

但是,直接这么做会有问题,就是:抽样对象不同,点估计值经常有差异。为了解决这个问题,有了区间估计的做法

# 二:什么是“区间估计”

通俗地讲:区间估计是在点估计的基础上,给一个合理取值范围。

比如:

抽样鸡腿的平均重量为150克,是一个点估计值。

抽样鸡腿的平均重量为145克到155克之间,是一个区间估计。

其中,145到155称为置信区间。这很符合人们的常规理解:东西很难100%准确,有个范围也是可以理解的。

但这个范围有多大可信度呢?人们用置信置信水平来衡量,即:“我们有多大把握,真实值在置信区间内”。一般用(1-α)表示。如果α取0.05,则置信水平为0.95,即95%的把握。

置信区间与置信水平连起来,完整的表达为:“我们有95%的把握,鸡腿平均重量在145至155克之间。”

有小伙伴会好奇,为啥置信水平不是100%!通俗地说,当置信水平太高时,置信区间会变得非常大,从而产生一些正确但无用的结论。

比如:我们有100%的把握,小熊妹颜值在负分滚粗(-10分)与美若天仙(10分)之间……这是句正确的废话。

再比如:我们有95%的把握,小熊妹是个颜值8分的美女(10分满分)……这个结论是不是有用多了!

# 三:如何做区间估计

做区间估计需要四步,不想看原理的小伙伴,死记硬背即可。

第一步:确认抽样对象和要计算的指标(看算平均值还是比例)

第二步:进行抽样,获得样本数据(平均值、比例、方差、样本量)

第三步:给定置信水平(1-α值)

第四步:利用Z分布,求出对应置信区间范围

计算公式为:

图片

只要把公式的参数,套进去即可。其中标准差,Z值/t值,平均值等参数,在各种计算工具里都有现成的公式可以用。

# 四:两个简单的例子

某公司主要针对中老年群体开发产品,用户在购买时无需提供身份信息,因此不清楚用户年龄。

现需抽样,调查其目标客户的年龄是否符合“中老年”的范畴,抽样数据如下,请计算90%置信水平下的目标客户年龄置信区间(如下图)。

图片

再看个比例的例子。某公司想了解用户满意度,而有相当比例的用户没有在商品评价里打分,因此采用调查方法,抽300名未在网站打分用户调查,其中182名用户表示满意,求95%置信水平下,用户满意率的置信区间(如下图)

图片

看到这个结果,反应快的小伙伴已经马上意识到:这种计算能用来验证业务有没有撒谎!比如上例中,如果业务方说“用户满意率肯定在70%以上”这样谎言就被戳穿了。

实际上,也确实是如此操作的。区间估计的方法是做假设检验的基础理论,所以小伙们都得掌握一下。

# 五:这么神奇的方法,为啥平时不咋用?

答:现代企业采集数据的手段丰富了很多,特别是互联网企业,用户的注册、点击、互动数据是全体收集的。因此想了解用户消费情况,完全可以针对全体统计消费率,消费金额等指标。就不需要抽样了,因此用得很少。

但这不意味着运营、产品、销售的同学就不需要掌握这个概念。因为这两年ABtest大行其道,导致抽样实验的方法又形成一轮文艺复兴。

先掌握区间估计的方法,对后边理解单样本/双样本/多样本假设检验,有巨大帮助。这一点,讲到后边大家都理解了。以上就是今天的分享,喜欢的话,记得转发、点赞、在看一键三连,支持下小熊妹哦,谢谢大家。

上次更新: 2023/10/10, 14:48:21
p 值是什么
豆瓣6部“搞钱”影单

← p 值是什么 豆瓣6部“搞钱”影单→

最近更新
01
置身事内
10-10
02
基础知识|八卦五行天干地支
10-08
03
基础知识|推算年月日时的干支
10-08
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Daotoyi | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式