一、老板的任务

一切的噩梦来自于,老板给你的任务:

计算所有肝脏细胞中X基因表达量大于30的可能性。

但是,最大的问题在于,肝脏中大约 2400 亿个细胞的X基因表达值,这个几乎是不可能的任务。

我们接下来一步一步来看怎么计算这个庞大的任务。

假设,我们现在已经拿到了这么多细胞的表达值。

使用直方图绘制,可以看到X基因大多表达量是 10 - 30

mark

1. 使用直方图求解

现在我们计算一个肝细胞的X基因表达量大于30的可能性,需要两个值:

  • X 基因表达量大于30的细胞数
  • 总细胞数

利用小学除法:

mark

根据观察值,代入

mark

2. 使用正态分布求解

将刚刚的直方图趋势,对应于分布,可以得到均值为20,标准差为10的正态分布曲线

mark

现在,换个思路,利用正态分布曲线来计算一个肝细胞的X基因表达量大于30的可能性。

这时,需要两个值:

  • 计算表达量大于30的面积
    mark
  • 曲线下的总面积
    mark

计算公式就是小学的除法:

mark

带入值

mark

可以得到和直方图近似的值,这意味着正态曲线是真实数据的一个很好的近似值。

但是,真实的情况是,我们不可能去测量 2400 亿个细胞作为数据集,这是一个浩大的工程。

解决这个问题之前,我们先看看什么是总体参数:

二、总体参数

总体,通俗来说就是一类事物的总称,比如要研究人,那么地球上的人就是一个总体,研究金枪鱼在海洋中的分布,那么海里所有的金枪鱼就是一个总体。很显然,直接这样统计总体很不切实际,后面我们会提到解决办法。

总体中提到的均值,标准差,中位数等统计指标,都是总体参数。

比如,代表总体正态曲线的均值和标准差就是总体参数

mark

  • 均值为总体均值(population mean),Population Mean
  • 标准差为总体标准差(the population standard deviation),简称:Population SD

对于指数分布来说,形状由率(Rate)决定

mark

总体参数:

  • 率为总体率,Population Rate

伽马分布,形状由形状(Shape)和率(Rate)参数决定,

mark

总体参数就是:

  • 形状为总体形状,Population Shape
  • 率为总体率,Population Rate

还有其他的分布是同样的。

三、估计总体参数

我们不可能去测量 2400 亿个细胞作为数据集作为总体,来拿到总体参数。

解决办法是,可以从总体中随机找几个测量值来估计总体参数。

也就是说,不论其他人怎么做实验,在肝细胞中测量X基因的值,一直来自于总体。

从总体得出的结论,比如观察单个细胞中表达量大于30的概率,同样适用于其他人或未来的实验。

举个栗子,下图中,两组实验的5个样本都来自于总体:

mark

我们去测量这5个值,不止是拿到本身的数值,而是要拿到总体参数,进而去作为得出可复现结论的基础。

但是,两组实验拿到的测量值,但是会得到不同的总体参数。

mark

这就引出一个问题,既然每次得到的是不同的估计总体参数,怎么保证得到可复现的结果呢?

造成这个结果的主要原因是样本量太少,也就是说数据越多,我们对估计总体参数的准确性也就越有信心。

统计学中衡量我们对总体参数估计的信心,有一个量化指标,叫置信水平。

在做统计分析时,要计算P值(p-value)和置信区间(confidence interval)来量化估计参数的置信度。

这里挖个坑,且听下回分解。

致谢:

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw