Loading

Module 1: Relaciones entre conjuntos de datos: Scatterplots, Correlación y regresión

Apuntes
Study Reminders
Support
Text Version

Cómo buscar la línea de regresión que mejor se frega en el diagrama de dispersión y cómo utilizar para hacer predicciones

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

RegresiónUna vez que se ha determinado que existe una relación significativa entre los conjuntos de datos, el siguiente paso es encontrar la ecuación de la línea de regresión que se dibujen a través de los pares de datos en el diagrama de dispersión.
Aunque se puede dibujar un número infinito de líneas a través de los puntos del diagrama de dispersión, sólo hay una línea que se puede caracterizar como la línea que mejor se ajusta a los datos. Esta es la línea que pasa a través de los pares de datos de forma que la distancia total de cada punto es de la línea es como mínimo. Esto también se conoce como la línea de regresión.
Determinación de la línea de regresión permite realizar las predicciones.
Variables dependientes e independientes
La ecuación de una línea recta es y = mx + b, donde b es el -intercept y m es la pendiente. En las estadísticas, los términos a menudo se renombran y se reorganizan para ser y = b_0 + b_1 x, donde b_0 es el -intercept y b_1 es la pendiente. y es la variable dependiente y x es la variable independiente.
En el ejemplo de la edad frente a la altura, la variable dependiente, y, es la altura y la variable independiente, x, es la edad. Piense en esto como altura (y) que depende de la edad (x).
Las variables dependientes e independientes son conocidas y están conformados por los valores de los dos conjuntos de datos, y y x. Lo que se desconoce es la pendiente, b_1, y la intercept-intercept, b_0. La regresión encontrará la pendiente y la intercepción, basándose en la línea de regresión de mejor ajuste. A continuación, la variable dependiente, y, se puede estimar o predecir, sustituyendo un valor para la variable independiente, x y luego resolviendo por y (el valor x utilizado debe estar dentro del rango de valores en el conjunto de datos, x).Mejor línea de ajusteSlope de la línea de ajuste mejor
La ecuación para la búsqueda de la pendiente de la línea de regresión es:
b_1 = frac { n (Sigma xy)-(Sigma x) (Sigma y) } { n (Sigma x ^ 2)-(Sigma x) ^ 2 }
donde n es el número de pares de datos (x, y).
-intercept de la línea de ajuste mejor
La ecuación para la búsqueda de la intercepción de la línea de regresión es:
b_0 = frac{Sigma y-b_1 (Sigma x) } { n }
Ejemplo: Retirada de la línea de ajuste más adecuada en el diagrama de dispersión
Asume el siguiente conjunto de datos de los salarios iniciales de 10 estudiantes y sus GPA asociados.
GPA
INICIAR SALARIO
3,7
52.000
3,9
55,269
3,8
53.300
3,4
44,119
4
53.161
3,3
43.500
3,7
49,080
3.1
43.500
3,7
52.000
3,5
50.700
Un diagrama de dispersión de los datos, donde Iniciando Salario es la variable dependiente (y), y GPA es la variable independiente asociada (x) se muestra a continuación. El inicio de Salary se traza en el rango de 35.000 a 60.000 y GPA de 2,5 a 4,5.
 
El coeficiente de correlación de Pearson de correlación, r, es 0,909078, lo que indica una fuerte correlación estadística, ya que está muy cerca de +1.
Buscando el r calculado de 0.909078 en una tabla de r de valores críticos para n=10, el r calculado es mayor que la tabla r en los niveles de confianza .05 y .01. La tabla r a nivel de confianza .05 es de 0,632 y en 0,01 es 0,765. Se confirma la correlación estadística.
La variable dependiente (y) está Iniciando Salary y la variable independiente (x) es GPA. La forma de la ecuación de regresión es:
y = b_0 + b_1 x
Utilización de la fórmula para la pendiente de la línea de ajuste mejor, b_1 for n=10
b_1 = 14320.18
Utilización de la fórmula para la interceptación de la línea de ajuste mejor, b_0, for n=10
b_0 = -2032.96
La ecuación de regresión, la ecuación de la mejor línea de ajuste, es:
y = -2032.96 + 14320.18 x
La función de ajuste de la línea de ajuste en el diagrama de dispersión nos da lo siguiente:
 
Cómo hacer prediccionesLa ecuación de regresión ahora se puede utilizar para predicciones. Podemos estimar, por ejemplo, que se puede esperar que un estudiante con un GPA de 3,2 tenga un salario inicial de aproximadamente 43.791 dólares.
Salario = 14320 (3.2)-2033 = 43.791 dólares