Capítulo 6

Análisis de Regresión

Una regresión lineal es un método para modelar la dependencia lineal entre dos variables.

Mínimos Cuadrados

Al solucionar una regresión como un problema de mínimos cuadrados estimamos los parámetros de un modelo lineal. El objetivo de este método es determinar el modelo lineal que minimiza la suma de cuadrados de los errores entre las observaciones en un conjunto de datos y las predicciones del modelo. Explora el método de mínimos cuadrados a través de los 4 conjuntos "infames" de datos del Cuarteto de Anscombe.

Escoge uno de los conjuntos de datos a investigar.

Selecciona y arrastra cada punto para explorar cómo este movimiento afecta la línea de mínimos cuadrados.

Haz clic en cada columna de la tabla de regresión para aprender más información sobre cada parámetro.

\(\displaystyle{n}\) \(\displaystyle{\bar{\cssId{xMEAN}{x}}}\) \(\displaystyle{\bar{\cssId{yMEAN}{y}}}\) \(\displaystyle{\hat{\cssId{BETA0}{B_{0}}}}\) \(\displaystyle{\hat{\cssId{BETA1}{B_{1}}}}\) \(\displaystyle{SSE}\)
Modelo

Correlación

La correlación es una medida de relación lineal entre dos variables. Dada una muestra, puede tomar valores entre +1 y -1 incluyendo los extremos. Se define como:

$$r = \dfrac{s_{xy}}{\sqrt{s_{xx}}\sqrt{s_{yy}}}$$

donde \(s_{xy},s_{xx},s_{yy}\) se definen como:

$$\begin{align*} s_{xy} &=\sum^n_{i=1} (x_i-\bar{x})(y_i-\bar{y})\\ s_{xx} &=\sum^n_{i=1} (x_i-\bar{x})^2\\ s_{yy} &=\sum^n_{i=1} (y_i-\bar{y})^2 \end{align*}$$

También, se puede entender como el coseno del ángulo con respecto al eje x de la línea de mínimos cuadrados definida por ambas variables. Explora este concepto a través del Iris flor conjunto de datos de Edgar Anderson.

Escoge las especies a investigar.

Haz clic en cada celda de la matriz de correlación para visualizar la relación entre estos rasgos.

Largo de Sépalo Ancho de Sépalo Largo de Pétalo Ancho de Pétalo
Largo de Sépalo
Ancho de Sépalo
Largo de Pétalo
Ancho de Pétalo

Análisis de Varianza

Análisis de Varianza (ANOVA) es un método estadístico para probar si grupos de datos comparten la misma media. ANOVA generaliza la prueba t de Student para dos o más grupos comparando la suma de cuadrados de los errores dentro y entre grupos.

Escoge uno de los siguientes conjuntos de datos para investigar.

Selecciona y arrastra los puntos para explorar cómo este movimiento afecta los resultados del test ANOVA.

Haz clic en cada columna de la tabla de ANOVA para aprender más información sobre cada parámetro.

\(\displaystyle{SSE}\) \(\displaystyle{df}\) \(\displaystyle{ECM}\) \(\displaystyle{F}\) \(\displaystyle{p}\)
Tratamiento
Error
Total