从零开始学统计 02 | 总体参数

发表于2020-09-03|统计学

|字数总计:1k|阅读时长:3分钟|阅读量:

一、老板的任务

一切的噩梦来自于，老板给你的任务：

计算所有肝脏细胞中X基因表达量大于30的可能性。

但是，最大的问题在于，肝脏中大约 2400 亿个细胞的X基因表达值，这个几乎是不可能的任务。

我们接下来一步一步来看怎么计算这个庞大的任务。

假设，我们现在已经拿到了这么多细胞的表达值。

使用直方图绘制，可以看到X基因大多表达量是 10 - 30

mark

1. 使用直方图求解

现在我们计算一个肝细胞的X基因表达量大于30的可能性，需要两个值：

X 基因表达量大于30的细胞数
总细胞数

利用小学除法：

mark

根据观察值，代入

mark

2. 使用正态分布求解

将刚刚的直方图趋势，对应于分布，可以得到均值为20，标准差为10的正态分布曲线

mark

现在，换个思路，利用正态分布曲线来计算一个肝细胞的X基因表达量大于30的可能性。

这时，需要两个值：

计算表达量大于30的面积
曲线下的总面积

计算公式就是小学的除法：

mark

带入值

mark

可以得到和直方图近似的值，这意味着正态曲线是真实数据的一个很好的近似值。

但是，真实的情况是，我们不可能去测量 2400 亿个细胞作为数据集，这是一个浩大的工程。

解决这个问题之前，我们先看看什么是总体参数：

二、总体参数

总体，通俗来说就是一类事物的总称，比如要研究人，那么地球上的人就是一个总体，研究金枪鱼在海洋中的分布，那么海里所有的金枪鱼就是一个总体。很显然，直接这样统计总体很不切实际，后面我们会提到解决办法。

总体中提到的均值，标准差，中位数等统计指标，都是总体参数。

比如，代表总体正态曲线的均值和标准差就是总体参数

mark

均值为总体均值（population mean），Population Mean
标准差为总体标准差(the population standard deviation)，简称：Population SD

对于指数分布来说，形状由率（Rate）决定

mark

总体参数：

率为总体率，Population Rate

伽马分布，形状由形状（Shape）和率（Rate）参数决定，

mark

总体参数就是：

形状为总体形状，Population Shape
率为总体率，Population Rate

还有其他的分布是同样的。

三、估计总体参数

我们不可能去测量 2400 亿个细胞作为数据集作为总体，来拿到总体参数。

解决办法是，可以从总体中随机找几个测量值来估计总体参数。

也就是说，不论其他人怎么做实验，在肝细胞中测量X基因的值，一直来自于总体。

从总体得出的结论，比如观察单个细胞中表达量大于30的概率，同样适用于其他人或未来的实验。

举个栗子，下图中，两组实验的5个样本都来自于总体：

mark

我们去测量这5个值，不止是拿到本身的数值，而是要拿到总体参数，进而去作为得出可复现结论的基础。

但是，两组实验拿到的测量值，但是会得到不同的总体参数。

mark

这就引出一个问题，既然每次得到的是不同的估计总体参数，怎么保证得到可复现的结果呢？

造成这个结果的主要原因是样本量太少，也就是说数据越多，我们对估计总体参数的准确性也就越有信心。

统计学中衡量我们对总体参数估计的信心，有一个量化指标，叫置信水平。

在做统计分析时，要计算P值（p-value）和置信区间（confidence interval）来量化估计参数的置信度。

这里挖个坑，且听下回分解。

致谢：

https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

文章作者: 白墨

文章链接: https://ziptop.top/posts/52450/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自白墨！

统计学生信情报站正态分布总体参数

打赏

微信
支付宝

相关推荐

从零开始学统计 01 | 神奇的正态分布

从零开始学统计 03 | 均值，方差，标准差

Markdown_数学公式写法与速查表

从零开始学统计 07 | 标准误差

从零开始学统计 04 | 协方差与相关性分析

从零开始学统计 06 | 样本容量和有效样本容量

评论

播放音乐

数据库加载中