一、计算平均值的分布

1. 均匀分布

从0-1选任意值,概率都相等

mark

计算一组数据集的平均值,在右边绘制直方图

mark

在搜集更多的样本,每增加一次样本,绘制一个直方图

mark

增加更多的样本

mark

会发现平均值的直方图,正好是我们之前学到的正态分布。

需要注意:

这些平均值是用均匀分布的数据计算出来的

但是,平均值本身不是均匀分布的,而是正态分布的。

2. 指数分布

mark

计算一组数据的平均值,在右边绘制直方图

mark

继续增加样本量,我们就会得到一个熟悉的分布

mark

需要注意:

这些平均值是用指数分布的数据计算出来的

但是,平均值本身不是指数分布的,而是正态分布的。

其实,不管是什么分布,最后的平均值分布都是正态分布的。

二、这个发现有什么用呢?

因为我们知道样本的平均值是正态分布的,所有就不必太担心样品来源数据的分布情况。

我们都可以用平均值的正态分布来确定置信区间。

通过T检验(t-test),从中我们可以判断两个样本的平均值是否有差异。

通过方差分析(ANOVA),从中我们可以判断三个以上样本的平均值是否有差异。

可以做几乎所有使用样本平均值的统计检验。为了使中心极限定理从根本上起作用,必须能够从样本中计算出平均值。

有些其他领域的人认为为了保证中心极限定理的正确性,样本大小必须至少为30。

这个只是一个被认为安全的经验法则,并不是一个必须遵守的规定。

致谢:

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw