一、标准误差

假设测量一个基因的五个表达量:

mark

标准偏差(Standard Deviation)量化了一组测量值中的变化程度

同样的实验做五次,每次实验用不同的样本:

mark

把五个样本的平均值放在一个数轴:

mark

可以计算得到两个值:

mark

对五个样本的平均值取平均值,计算得到的标准偏差就是标准误差。

标准误差(Standard Error)量化了多组测量值均值的变化程度

不难发现:

  • 标准偏差量化了一组测量值中的变化程度
  • 标准误差量化了多组测量值均值的变化程度

二、标准误差的表示

三个样本

mark

绿色:均值

红色:标准偏差

如果不想展示原始数据,只需要反应标准偏差和均值就行,也就是下面的TNT图:

mark

误差棒(Error Bars)有三种类型:

  • 标准偏差(Standard Deviations)
  • 标准误差(Standard Errors)
  • 置信区间(Confidence Intervals)

经验法则:

均值 ± 一个标准偏差的数值范围,覆盖全部数值的68%

均值 ± 两个标准偏差的数值范围,覆盖全部数值的95%

计算平均值的标准误差

  • 抽取一组样本,每个样本都有相同数量的测量值
  • 计算每组样本的均值
  • 利用均值计算标准误差 Std.Err

mark

可以发现标准误差比标准偏差要小很多。这是因为平均值没有原始数据那么分散。

当然也可以计算标准偏差的标准偏差,这个值叫做标准偏差的标准误差。它告诉我们多个样本的标准偏差是如何分布的。

其实理论上,我们可以计算一切统计值的标准偏差,比如中位数,众数,百分数等的标准偏差,得到的值就是该统计值的标准误差。

标准误差只是来自同一群体的多个均值的标准偏差。

三、如何在一组样本中计算标准误差

自助抽样法(Bootstrap)

mark

  • 选取一个随机测量值
  • 记录该值
  • 重复以上两步,直到拿到 5 个测量值
  • 计算均值,中位数,众数等
  • 回到第一步,重复以上步骤,拿到多个统计量的值
  • 利用拿到的统计量的值,如均值计算标准偏差,得到标准误差