从零开始学统计 02 | 总体参数
一、老板的任务
一切的噩梦来自于,老板给你的任务:
计算所有肝脏细胞中X基因表达量大于30的可能性。
但是,最大的问题在于,肝脏中大约 2400 亿个细胞的X基因表达值,这个几乎是不可能的任务。
我们接下来一步一步来看怎么计算这个庞大的任务。
假设,我们现在已经拿到了这么多细胞的表达值。
使用直方图绘制,可以看到X基因大多表达量是 10 - 30
1. 使用直方图求解
现在我们计算一个肝细胞的X基因表达量大于30的可能性,需要两个值:
- X 基因表达量大于30的细胞数
- 总细胞数
利用小学除法:
根据观察值,代入
2. 使用正态分布求解
将刚刚的直方图趋势,对应于分布,可以得到均值为20,标准差为10的正态分布曲线
现在,换个思路,利用正态分布曲线来计算一个肝细胞的X基因表达量大于30的可能性。
这时,需要两个值:
- 计算表达量大于30的面积
- 曲线下的总面积
计算公式就是小学的除法:
带入值
可以得到和直方图近似的值,这意味着正态曲线是真实数据的一个很好的近似值。
但是,真实的情况是,我们不可能去测量 2400 亿个细胞作为数据集,这是一个浩大的工程。
解决这个问题之前,我们先看看什么是总体参数:
二、总体参数
总体,通俗来说就是一类事物的总称,比如要研究人,那么地球上的人就是一个总体,研究金枪鱼在海洋中的分布,那么海里所有的金枪鱼就是一个总体。很显然,直接这样统计总体很不切实际,后面我们会提到解决办法。
总体中提到的均值,标准差,中位数等统计指标,都是总体参数。
比如,代表总体正态曲线的均值和标准差就是总体参数
- 均值为总体均值(population mean),Population Mean
- 标准差为总体标准差(the population standard deviation),简称:Population SD
对于指数分布来说,形状由率(Rate)决定
总体参数:
- 率为总体率,Population Rate
伽马分布,形状由形状(Shape)和率(Rate)参数决定,
总体参数就是:
- 形状为总体形状,Population Shape
- 率为总体率,Population Rate
还有其他的分布是同样的。
三、估计总体参数
我们不可能去测量 2400 亿个细胞作为数据集作为总体,来拿到总体参数。
解决办法是,可以从总体中随机找几个测量值来估计总体参数。
也就是说,不论其他人怎么做实验,在肝细胞中测量X基因的值,一直来自于总体。
从总体得出的结论,比如观察单个细胞中表达量大于30的概率,同样适用于其他人或未来的实验。
举个栗子,下图中,两组实验的5个样本都来自于总体:
我们去测量这5个值,不止是拿到本身的数值,而是要拿到总体参数,进而去作为得出可复现结论的基础。
但是,两组实验拿到的测量值,但是会得到不同的总体参数。
这就引出一个问题,既然每次得到的是不同的估计总体参数,怎么保证得到可复现的结果呢?
造成这个结果的主要原因是样本量太少,也就是说数据越多,我们对估计总体参数的准确性也就越有信心。
统计学中衡量我们对总体参数估计的信心,有一个量化指标,叫置信水平。
在做统计分析时,要计算P值(p-value)和置信区间(confidence interval)来量化估计参数的置信度。
这里挖个坑,且听下回分解。
致谢: