Loading

Module 1: Relations entre les ensembles de données: Scatterparcelles, Corrélation et régression

Notes d'étude
Study Reminders
Support
Text Version

Trouver la ligne de régression que Best Fits the Scatterplot and Using it to Make Predictions

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

RégressionUne fois qu'il a été déterminé qu'il existe une relation significative entre les fichiers, l'étape suivante consiste à trouver l'équation de la droite de régression tracée à travers les paires de données sur le nuage de points.
Bien qu'un nombre infini de lignes puisse être tracé à travers les points sur le nuage de points, il n'y a qu'une seule ligne qui peut être caractérisée comme la ligne qui convient le mieux aux données. Il s'agit de la ligne qui passe par les paires de données de telle sorte que la distance globale de chaque point de la ligne soit au minimum. Il s'agit également de la ligne de régression.
La détermination de la droite de régression permet d'effectuer des prévisions.
Variables dépendantes et indépendantes
L'équation d'une ligne droite est y = mx + b, où b est l'ordonnée à l'origine et m est la pente. Dans les statistiques, les termes sont souvent renommés et réarrangés pour être y = b_0 + b_1 x, où b_0 est l'ordonnée à l'origine et b_1 est la pente. Y est la variable dépendante et x est la variable indépendante.
Dans l'exemple de l'âge par rapport à la hauteur, la variable dépendante, y, est la hauteur et la variable indépendante, x, est l'âge. Considépartir comme la hauteur (y) dépend de l'âge (x).
Les variables dépendantes et indépendantes sont connues et se composent des valeurs des deux ensembles de données, y et x. Ce qui est inconnu est la pente, b_1, et l'ordonnée à l'origine, b_0. La régression trouvera la pente et l'ordonnée à l'origine, sur la base de la ligne de régression la plus adaptée. Ensuite, la variable dépendante, y, peut être estimée, ou prédite, en substituant une valeur pour la variable indépendante x, puis la résolution pour y (la valeur x utilisée doit être dans la plage de valeurs de l'ensemble de données, x).Meilleure ligne d'ajustementSlope de la meilleure ligne d'ajustement
L'équation permettant de trouver la pente de la droite de régression est la suivante:
b_1 = frac { n (Sigma xy)-(Sigma x) (Sigma y) } { n (Sigma x ^ 2)-(Sigma x) ^ 2 }
où n est le nombre de paires de données (x, y).
interception de la meilleure ligne d'ajustement
L'équation permettant de rechercher l'ordonnée à l'origine de la courbe de régression est la suivante:
b_0 = frac{Sigma y-b_1 (Sigma x) } { n }
Exemple: Lecture de la meilleure ligne d'ajustement sur le nuage de points
Supposons que les données suivantes ont été établies pour les salaires de départ de 10 étudiants et de leurs GPAs associés.
GPA
STARTING SALAIRE
3.7
52.000
3,9
55,269
3,8
53 300
3.4
44 119
4
53 161
3.3
43 500
3.7
49 080
3.1
43 500
3.7
52.000
3,5
50 700
Un nuage de points des données, où Démarrage du traitement est la variable dépendante (y), et GPA est la variable indépendante associée (x) est affichée ci-dessous. Le salaire de départ est représenté dans la fourchette allant de 35 000 à 60 000 et de GPA de 2,5 à 4,5.
 
Le coefficient de corrélation de Pearson, r, est de 0,909078, ce qui indique une forte corrélation statistique puisqu'il est très proche de +1.
Si vous recherchez le nombre calculé r de 0,909078 dans un tableau r de valeurs critiques pour n=10, le r calculé est supérieur au tableau r aux niveaux de fiabilité .05 et .01. Le tableau r au niveau de confiance .05 est de 0,632 et à 0,765. La corrélation statistique est confirmée.
La variable dépendante (y) est Démarrage Salaire et la variable indépendante (x) est GPA. La forme de l'équation de régression est la suivante:
y = b_0 + b_1 x
Utilisation de la formule pour la pente de la meilleure ligne d'ajustement, b_1 pour n=10
b_1 = 14320,18
Utilisation de la formule pour l'interception de la meilleure ligne d'ajustement, b_0, pour n=10
b_0 = -2032.96
L'équation de régression, l'équation de la meilleure ligne d'ajustement, est:
y = -2032.96 + 14320.18 x
La meilleure ligne d'ajustement sur le nuage de points est la suivante:
 
Faire des prévisionsL'équation de régression peut maintenant être utilisée pour les prévisions. Nous pouvons estimer, par exemple, qu'un étudiant ayant un GPA de 3.2 peut être censé avoir un salaire de départ d'environ 43 791 $.
Salaire = 14320 (3.2)-2033 = 43 791 $