从零开始学统计 07 | 标准误差

假设测量一个基因的五个表达量：

mark

标准偏差（Standard Deviation）量化了一组测量值中的变化程度

同样的实验做五次，每次实验用不同的样本：

mark

把五个样本的平均值放在一个数轴：

mark

可以计算得到两个值：

mark

对五个样本的平均值取平均值，计算得到的标准偏差就是标准误差。

标准误差（Standard Error）量化了多组测量值均值的变化程度

不难发现：

三个样本

mark

绿色：均值

红色：标准偏差

如果不想展示原始数据，只需要反应标准偏差和均值就行，也就是下面的TNT图：

mark

误差棒（Error Bars）有三种类型：

经验法则：

均值 ± 一个标准偏差的数值范围，覆盖全部数值的68%

均值 ± 两个标准偏差的数值范围，覆盖全部数值的95%

计算平均值的标准误差

mark

可以发现标准误差比标准偏差要小很多。这是因为平均值没有原始数据那么分散。

当然也可以计算标准偏差的标准偏差，这个值叫做标准偏差的标准误差。它告诉我们多个样本的标准偏差是如何分布的。

其实理论上，我们可以计算一切统计值的标准偏差，比如中位数，众数，百分数等的标准偏差，得到的值就是该统计值的标准误差。

标准误差只是来自同一群体的多个均值的标准偏差。

mark