Loading

Module 1: Relations entre les ensembles de données: Scatterparcelles, Corrélation et régression

Notes d'étude
Study Reminders
Support
Text Version

Analyse de la corrélation à l'aide de Scatterparcelles, la Coefficient Pearson de corrélation et les intervalles de confiance

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

CorrélationLa corrélation fait référence aux relations qui existent entre les fichiers. Il existe plusieurs types de relations qui peuvent exister entre deux ensembles de données. Par exemple, il y a probablement une relation et une corrélation significative entre l'âge des enfants et leur hauteur. Cependant, la causalité n'est pas impliquée par la corrélation, même si un ensemble de données peut entraîner l'autre. Par exemple, l'âge des enfants peut être à l'origine de leur hauteur.
Le prix d'une tranche de pizza au cours du temps à NYC est corrélé au prix d'une course de métro à New York pendant cette même période. Toutefois, l'augmentation du prix du passage inférieur ne cause pas l'augmentation du prix de la tranche de pizza et vice versa. Il y a plutôt un troisième facteur qui fait monter les deux prix ensemble ; celui du coût de la vie.
La corrélation est examinée en trois étapes.Un nuage de points est créé et examiné.La Coefficient de Pearson de corrélation, r, est calculée et examinée.La Coefficient de Pearson de corrélation, r, est comparée aux valeurs critiques pour r pour un niveau donné de signification.ScatterparcellesUn nuage de points est un graphique des paires ordonnées (x, y) composées de données provenant de deux ensembles de données, tels que l'âge (x) et la hauteur (y) des enfants. Le nuage de points fournit une indication visuelle rapide d'une relation.
Une fois que le graphique de dispersion est tracé, nous pouvons analyser le graphique pour voir s'il existe un modèle. S'il y a un motif perceptible, comme les points qui tombent sur une ligne droite approximativement, il peut exister une relation possible entre les deux variables.
Le nuage de points de l'âge par rapport à la hauteur peut ressembler à l'un des quatre suivants.
 
Plot A indique qu'il existe une relation linéaire positive entre l'âge (x) et la hauteur (y) des enfants. Avec l'augmentation de l'âge, la hauteur est telle.
Le lot B indique une relation linéaire négative entre l'âge (x) et la hauteur (y) des enfants. Avec l'augmentation de l'âge, la hauteur diminue.
Le Tracé C indique qu'il existe une relation non linéaire entre l'âge (x) et la hauteur (y) des enfants.
Le Tracé D n'indique aucune relation entre l'âge (x) et la hauteur (y) des enfants.
Si notre tracé ressemble à A ou B ci-dessus, alors nous allons passer à la 2e étape, qui consiste à calculer le coefficient de corrélation, r.La Coefficient de corrélation de Pearson, rLe coefficient de corrélation, r, est un nombre qui décrit la proximité d'une relation linéaire avec deux ensembles de données.
Les coefficients de corrélation vont de -1 (relation linéaire négative parfaite) à + 1 (relation linéaire positive parfaite). Plus ce chiffre est proche d'un (positif ou négatif), plus il est probable que les ensembles de données sont liés. Un coefficient de corrélation proche de zéro indique que les données ne sont probablement pas du tout liées.
La formule de calcul de r est:
r = frac { n (Sigma xy)-(Sigma x) (Sigma y) } { sqrt { [ n (Sigma x ^ 2)-(Sigma x) ^ 2 ] [ n (Sigma y ^ 2)-(Sigma y) ^ 2 ] } }
Où n = nombre de paires de données
Sigma x = somme des valeurs x
Sigma y = somme des valeurs y
Sigma xy = somme des produits des valeurs x et y pour chaque paire
Sigma x ^ 2 = somme des carrés des valeurs x
Sigma y ^ 2 = somme des carrés des valeurs y
Créez une table pour faciliter le calcul.
Remplissez la table avec les valeurs x et y. Ensuite, recherchez les valeurs du produit xy, les valeurs de x ^ 2, les valeurs de y ^ 2 et entrez celles-ci dans la table. Ensuite, additionnez les valeurs et remplacez-les dans la formule de r.
x
y
xy x ^ 2 y ^ 2
 
 
 
 
 
Sigma x: Sigma y: Sigma xy: Sigma x ^ 2: Sigma y ^ 2:
Lorsque r est proche de pm 1, la corrélation statistique est facile à réclamer. Le problème se produit lorsque le coefficient de corrélation se situe quelque part autour de + ou-0,5. Existe-t-il une corrélation statistique? Pour déterminer si le coefficient de corrélation est significatif, recherchez le r calculé r dans la table r des niveaux critiques.
Niveaux critiques de rLe tableau des niveaux critiques de r permet de déterminer la corrélation statistique avec un niveau de confiance spécifié.
Pour être sûr à 95% de la corrélation statistique, la valeur r calculée est examinée dans la colonne pour une valeur critique de .05 avec n paires de données. Si la valeur calculée est supérieure à la valeur de la table, elle peut alors être déclarée avec une confiance de 95% qu'il existe probablement une corrélation statistique.
Pour être sûr à 99%, la valeur r calculée est examinée dans la colonne pour une valeur critique de .01 avec n paires de données. Si la valeur calculée est supérieure à la valeur de la table, elle peut être déclarée avec une confiance de 99% qu'il existe probablement une corrélation statistique.