第六章

回归分析

回归分析是一种建立两个变量之间线性模型的方法

最小二乘法

最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。

选择一个数据集

拖动图中的数据点,观察它们对回归直线的影响。

点击下方表格来了解每个参数在最小二乘法中的具体含义。

\(\displaystyle{n}\) \(\displaystyle{\bar{\cssId{xMEAN}{x}}}\) \(\displaystyle{\bar{\cssId{yMEAN}{y}}}\) \(\displaystyle{\hat{\cssId{BETA0}{B_{0}}}}\) \(\displaystyle{\hat{\cssId{BETA1}{B_{1}}}}\) \(\displaystyle{SSE}\)
Model

相关性

相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是

$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$

其中 $$\begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*}$$ 由上述定义我们可以看出\(r\in[-1.1]\)。

我们还可以把相关性\(r\)理解为最小二乘法确定的\(x,y\)变量方向之间的余弦值。你可以通过Edgar Anderson的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:

点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。

萼片长度(Sepal Length) 萼片宽度(Sepal Width) 花瓣长度(Petal Length) 花瓣宽度(Petal Width)
S萼片长度(Sepal Length)
萼片宽度(Sepal Width)
花瓣长度(Petal Length)
花瓣宽度(Petal Width)

方差分析

方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。

选择一个数据集来进行探索:

你可以移动数据点然后观察这些改变如何影响方差分析的结果。

点击下方方差分析表格的各列来进一步了解各参数的意义。

\(\displaystyle{SSE}\) \(\displaystyle{df}\) \(\displaystyle{MS}\) \(\displaystyle{F}\) \(\displaystyle{p}\)
组间误差 Treatment
随机误差 Error
总和 Total