第五章

统计推断:贝叶斯学派

贝叶斯学派的思想是用数据来更新特定假设的概率。

贝叶斯公式

假设你最近去看了医生,并决定检查一下自己有没有得一种罕见的疾病。如果你很不幸地收到了阳性的结果,你可能最想知道的是“已知这个检查结果,我真的得了这种病的概率是多少?”(毕竟医疗检查并不是100%准确的。)有了贝叶斯公式,我们就可以准确地计算出上述事件的概率:

$$P(\text{患病}|阳性) = \dfrac{P(阳性|\text{患病})P(\text{患病})}{P(阳性)}$$

从上述公式我们可以看出,已知检查结果阳性患病的后验还依赖于概率患病的先验概率\( P(\text{患病}) \)。我们可以把这个患病的先验概率理解为人群中患有这个疾病的概率。拖拽下方的柱状图来调整这个先验概率。

另一方面,后验概率还依赖于检查的准确程度:一个健康的人收到阴性结果的概率是多少?一个患者收到阳性结果的概率是多少?你可以在下方确定这两者的概率。

最后,我们还需要知道这个检查给出阳性结果的总概率。你可以点击下方的按钮来生成一些样本,模拟检查过程。

检查一位患者
检查所有患者
阴性 阳性

以上就是计算后验概率所需要的所有信息。下方的表格给出了利用贝叶斯公式算出的其他后验概率。

阴性 阳性
健康
患病
分类
重置

似然函数

在统计学中, 似然函数 的定义是:

$$L(\theta | x) = P(x | \theta)$$

似然函数的概念在频率学派和贝叶斯学派中都有重要的作用。

选择样本大小\(n\)然后生成样本。

\(n\) = 1

生成样本

拖动紫色滑块(改变\(\theta\)的值)并观察似然函数。

从先验概率到后验概率

贝叶斯统计的核心思想是利用观察到的数据来更新先验信息。考虑一枚不均匀的硬币,抛出正面的概率为\(p\)。下面的紫色滑块可以调整\(p\)的大小(假设在现实中我们并不知道\(p\))。

\(p\) = 0.5

粉色的滑块可以调整\(p\)的先验分布。这里我们假定\(p\)的先验分布是Beta(\(\alpha,\beta\)),在图中粉色曲线代表了先验概率的密度分布函数。

\(\alpha\) = 1

\(\beta\) = 1

当我们重复抛硬币时,我们不断更新关于\(p\)的后验分布。这个后验分布就是我们对\(p\)的最好估计,同时这也是我们相对我们下一次抛硬币结果的先验信息。

抛硬币
抛10次硬币


tail
=
head
=