从零开始学统计 08 | 中心极限定理
一、计算平均值的分布
1. 均匀分布
从0-1选任意值,概率都相等
计算一组数据集的平均值,在右边绘制直方图
在搜集更多的样本,每增加一次样本,绘制一个直方图
增加更多的样本
会发现平均值的直方图,正好是我们之前学到的正态分布。
需要注意:
这些平均值是用均匀分布的数据计算出来的
但是,平均值本身不是均匀分布的,而是正态分布的。
2. 指数分布
计算一组数据的平均值,在右边绘制直方图
继续增加样本量,我们就会得到一个熟悉的分布
需要注意:
这些平均值是用指数分布的数据计算出来的
但是,平均值本身不是指数分布的,而是正态分布的。
其实,不管是什么分布,最后的平均值分布都是正态分布的。
二、这个发现有什么用呢?
因为我们知道样本的平均值是正态分布的,所有就不必太担心样品来源数据的分布情况。
我们都可以用平均值的正态分布来确定置信区间。
通过T检验(t-test),从中我们可以判断两个样本的平均值是否有差异。
通过方差分析(ANOVA),从中我们可以判断三个以上样本的平均值是否有差异。
可以做几乎所有使用样本平均值的统计检验。为了使中心极限定理从根本上起作用,必须能够从样本中计算出平均值。
有些其他领域的人认为为了保证中心极限定理的正确性,样本大小必须至少为30。
这个只是一个被认为安全的经验法则,并不是一个必须遵守的规定。
致谢:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 白墨!
评论