Processing math: 2%

第六章

回归分析

回归分析是一种建立两个变量之间线性模型的方法

最小二乘法

最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。

选择一个数据集

拖动图中的数据点,观察它们对回归直线的影响。

点击下方表格来了解每个参数在最小二乘法中的具体含义。

n \displaystyle{\bar{\cssId{xMEAN}{x}}} \displaystyle{\bar{\cssId{yMEAN}{y}}} \displaystyle{\hat{\cssId{BETA0}{B_{0}}}} \displaystyle{\hat{\cssId{BETA1}{B_{1}}}} \displaystyle{SSE}
Model

相关性

相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是

r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}

其中 \begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*} 由上述定义我们可以看出r\in[-1.1]

我们还可以把相关性r理解为最小二乘法确定的x,y变量方向之间的余弦值。你可以通过Edgar Anderson的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:

点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。

萼片长度(Sepal Length) 萼片宽度(Sepal Width) 花瓣长度(Petal Length) 花瓣宽度(Petal Width)
S萼片长度(Sepal Length)
萼片宽度(Sepal Width)
花瓣长度(Petal Length)
花瓣宽度(Petal Width)

方差分析

方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。

选择一个数据集来进行探索:

你可以移动数据点然后观察这些改变如何影响方差分析的结果。

点击下方方差分析表格的各列来进一步了解各参数的意义。

\displaystyle{SSE} \displaystyle{df} \displaystyle{MS} \displaystyle{F} \displaystyle{p}
组间误差 Treatment
随机误差 Error
总和 Total
05101520051015
-1.0-0.50.00.51.0