Loading

Module 1: Relaciones entre conjuntos de datos: Scatterplots, Correlación y regresión

Apuntes
Study Reminders
Support
Text Version

Analizar correlación utilizando gráficos de dispersión, Coeficiente de correlación de correlación de Pearson y Intervalos de confianza

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

CorrelaciónCorrelación hace referencia a las relaciones que existen entre los conjuntos de datos. Existen muchos tipos de relaciones que pueden existir entre dos conjuntos de datos. Por ejemplo, es probable que exista una relación y una correlación significativa entre las edades de los niños y sus alturas. Sin embargo, la causalidad no está implícita en la correlación, a pesar de que un conjunto de datos puede provocar el otro. Por ejemplo, las edades de los hijos pueden provocar sus alturas.
El precio de una rebanada de pizza a lo largo del tiempo en la NYC está correlacionado con el precio de un recorrido del metro en el NYC durante este mismo período de tiempo. Sin embargo, el aumento en el precio del recorrido del metro no causa el aumento en el precio de la rebanada de pizza y viceversa. Por el contrario, hay un tercer factor que hace que ambos precios suban juntos; el del coste de la vida.
La correlación se examina en tres pasos.Se crea y examina un diagrama de dispersión.Se calcula y examina el coeficiente de correlación de Pearson.El coeficiente de correlación de Pearson, r, se compara con los valores críticos para un nivel especificado de significación.ScatterplotsUn diagrama de dispersión es un gráfico de los pares ordenados (x, y) que consta de datos de dos conjuntos de datos, como por ejemplo la edad (x) y la altura (y) de los hijos. El diagrama de dispersión proporciona una indicación visual rápida de una relación.
Después de dibujarse el diagrama de dispersión, podemos analizar el gráfico para ver si hay un patrón. Si hay un patrón notable, como los puntos que caen en una línea recta aproximadamente, puede existir una relación posible entre las dos variables.
El diagrama de dispersión de la edad frente a la altura puede pararse a uno de los cuatro siguientes.
 
Plot A indica que existe una relación lineal positiva entre la edad (x) y la altura (y) de los hijos. A medida que aumenta la edad, también la altura.
El Plot B indica que existe una relación lineal negativa entre la edad (x) y la altura (y) de los hijos. A medida que aumenta la edad, la altura disminuye.
La ranura C indica que existe una relación no lineal entre la edad (x) y la altura (y) de los hijos.
La ranura D indica que no hay relación entre la edad (x) y la altura (y) de los hijos.
Si nuestro gráfico se parece a A o B, entonces nos trasladaríamos al segundo paso, que es calcular el coeficiente de correlación, r.El coeficiente de Pearson de correlación, rEl coeficiente de correlación, r, es un número que describe cómo se aproximan a una relación lineal dos conjuntos de datos.
Los coeficientes de correlación van de -1 (relación lineal negativa perfecta) a + 1 (relación lineal positiva perfecta). Cuanto más se acerca este número a uno (ya sea positivo o negativo), más probable es que los conjuntos de datos estén relacionados. Un coeficiente de correlación cercano a cero indica que es muy probable que los datos no estén relacionados en absoluto.
La fórmula para calcular r es:
r = frac { n (Sigma xy)-(Sigma x) (Sigma y) } { sqrt { [ n (Sigma x ^ 2)-(Sigma x) ^ 2] [ n (Sigma y ^ 2)-(Sigma y) ^ 2] } }
Donde n = número de pares de datos
Sigma x = la suma de los valores x
Sigma y = la suma de los valores y
Sigma xy = la suma de los productos de los valores x y y para cada par
Sigma x ^ 2 = la suma de los cuadrados de los valores x
Sigma y ^ 2 = la suma de los cuadrados de los valores y
Cree una tabla para facilitar el cálculo.
Rellene la tabla con los valores x y y. A continuación, busque los valores para el producto xy, los valores para x ^ 2, los valores para y ^ 2 y especifíque en la tabla. A continuación, resume los valores y sustitúyalos en la fórmula de r.
x
y
xy x ^ 2 y ^ 2
 
 
 
 
 
Sigma x: Sigma y: Sigma xy: Sigma x ^ 2: Sigma y ^ 2:
Cuando r está cerca de pm 1, la correlación estadística es fácil de reclamar. El problema se produce cuando el coeficiente de correlación está en algún lugar alrededor de + o-0,5. ¿Hay correlación estadística? Para determinar si el coeficiente de correlación es significativo, busque la r calculada en la tabla r de niveles críticos.
Niveles críticos de rLa tabla de niveles críticos de r permite la determinación de la correlación estadística con un nivel de confianza especificado.
Para tener un 95% de confianza en la correlación estadística, el valor de r calculado se busca en la columna para un valor crítico de .05 con n pares de datos. Si el valor calculado es mayor que el valor de la tabla, puede afirmar con un 95% de confianza que es probable que exista una correlación estadística.
Para tener un 99% de confianza, el valor de r calculado se busca en la columna para un valor crítico de .01 con n pares de datos. Si el valor calculado es mayor que el valor de la tabla, se puede afirmar con un 99% de confianza en que probablemente exista una correlación estadística.