第四章

统计推断:频率学派

频率学派通过观察数据来确定背后的概率分布。

点估计

统计学中一个主要的问题是估计参数。我们用一个取值为样本的函数来估计我们感兴趣的参数,并称这个函数为估计量。这里我们用一个估计圆周率\(\pi\)的例子来具体说明这个想法。 我们知道\(\pi\)可以由圆与其外切正方形的面积比来表示: $$\begin{matrix}S_{circle} = \pi r^2\\S_{square} = 4r^2\end{matrix} \implies \pi = 4 \frac{S_{circle}}{S_{square}}$$ 首先我们均匀地在正方形上随机生成\(n\)个样本,用\(m\)来表示落入这个正方形内切圆的样本个数。定义估计量\(\hat{\pi}\)如下: $$\hat{\pi} = 4\dfrac{m}{n}$$ 我们可以看到这个估计量有良好的性质:无偏性 相合性

\( m= \) 0.00
\( n= \) 0.00
\( \hat{\pi}= \)
生成100个样本
生成1000个样本

置信区间

与点估计不同,置信区间用估计的是一个参数的范围。一个置信区间对应着一个置信水平:一个置信水平为\(95\%\)的置信区间表示这个置信区间包含了真实参数的概率为\(95\%\)。

你可以选择一个概率分布来生成样本

选择样本大小\(n\)和置信水平 \((1-\alpha)\)。


开始生成样本和构造置信区间。

开始生成样本

图形展示改编自 Kristoffer Magnusson的 置信区间.

Bootstrap方法

许多频率学派的统计推断侧重于使用一些“性质比较良好”的估计量。但是我们知道这些统计量本身是样本的函数,因此往往比较难分析它们自己的概率分布。而Bootstrap方法则给我们提供了一种方便的近似确定估计量性质的方法。下面我们通过一个例子来说明Bootstrap方法。假设我们现在有\(n\)个独立的样本\(X_1,...,X_n\),基于这些样本我们就有了一个经验分布函数:

$$F_n(x) = \sum^n_{i=1}\mathbf{1}_{\{X_i\leq x\}}$$

我们可以重复根据这个经验分布函数生成样本,利用这些新的样本来估计元样本均值的标准差。

你可以选择一个概率分布,然后生成一组样本和相应的经验分布函数。

选择抽样(以及重抽样)的样本大小然后根据你所选择的概率分布生成样本。

生成样本

根据经验分布重抽样来估计样本均值的分散程度。

重抽样
重抽样100次