回归分析是一种建立两个变量之间线性模型的方法
最小二乘法是一个估计线性模型参数的方法。这个方法的目标是找到一组线性模型参数,使得这个模型预测的数据和实际数据间的平方误差达到最小。这是四个让让统计学家一度十分头疼的数据集:安斯库姆四重奏,你可以通过这四个数据集进一步探索最小二乘法。
选择一个数据集
拖动图中的数据点,观察它们对回归直线的影响。
点击下方表格来了解每个参数在最小二乘法中的具体含义。
\(\displaystyle{n}\) | \(\displaystyle{\bar{\cssId{xMEAN}{x}}}\) | \(\displaystyle{\bar{\cssId{yMEAN}{y}}}\) | \(\displaystyle{\hat{\cssId{BETA0}{B_{0}}}}\) | \(\displaystyle{\hat{\cssId{BETA1}{B_{1}}}}\) | \(\displaystyle{SSE}\) | |
Model |
相关性是一种刻画两个变量之间线性关系的度量。相关性的数学定义是
$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$其中 $$\begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*}$$ 由上述定义我们可以看出\(r\in[-1.1]\)。
我们还可以把相关性\(r\)理解为最小二乘法确定的\(x,y\)变量方向之间的余弦值。你可以通过Edgar Anderson的著名的 鸢尾花(Iris flower)数据集例子来进一步探索这个概念。选择下方鸢尾花种类:
点击下面相关性矩阵来探索各个品种鸢尾花之间的相关性。
萼片长度(Sepal Length) | 萼片宽度(Sepal Width) | 花瓣长度(Petal Length) | 花瓣宽度(Petal Width) | |
S萼片长度(Sepal Length) | ||||
萼片宽度(Sepal Width) | ||||
花瓣长度(Petal Length) | ||||
花瓣宽度(Petal Width) |
方差分析(ANONA,Analysis of Variace)是一种检验各组数据是否有相同均值的统计学方法。方差分析将t检验从检验两组数据均值推广到检验多组数据均值,其主要方法是比较组内和组间平方误差。
选择一个数据集来进行探索:
你可以移动数据点然后观察这些改变如何影响方差分析的结果。
点击下方方差分析表格的各列来进一步了解各参数的意义。
\(\displaystyle{SSE}\) | \(\displaystyle{df}\) | \(\displaystyle{MS}\) | \(\displaystyle{F}\) | \(\displaystyle{p}\) | |
组间误差 Treatment | |||||
随机误差 Error | |||||
总和 Total |