Loading

Alison's New App is now available on iOS and Android! Download Now

Module 1: Relazioni Tra Data Set: Scatterplotti, Correlazione e Regressione

    Study Reminders
    Support

    Set your study reminders

    We will email you at these times to remind you to study.
    • Monday

      -

      7am

      +

      Tuesday

      -

      7am

      +

      Wednesday

      -

      7am

      +

      Thursday

      -

      7am

      +

      Friday

      -

      7am

      +

      Saturday

      -

      7am

      +

      Sunday

      -

      7am

      +

    RegressionUna volta determinato che esiste una relazione significativa tra i dataset, il passo successivo è quello di trovare l'equazione della linea di regressione tracciata attraverso le coppie di dati sulla trama.
    Sebbene un numero infinito di righe possa essere tracciato attraverso i punti sulla trama, c'è una sola linea che può essere caratterizzata come la linea che meglio si adatta ai dati. Questa è la linea che passa attraverso le coppie di dati in modo tale che la distanza complessiva ogni punto sia dalla linea minima. Questa è anche conosciuta come la linea di regressione.
    Determinare la linea di regressione quindi consente di effettuare le previsioni.
    Variabili dipendenti e indipendenti
    L'equazione di una retta è y = mx + b, dove b è l'y-intercetto e m è la pendenza. In statistica i termini sono spesso rinominati e ridisposti per essere y = b_0 + b_1 x, dove b_0 è l'y-intercetto e b_1 è la pendenza. y è la variabile dipendente e x è la variabile indipendente.
    Nell'esempio di età vs. altezza, la variabile dipendente, y, è di altezza e la variabile indipendente, x, è l'età. Pensate a questo come l'altezza (y) dipende dall'età (x).
    Le variabili dipendenti e indipendenti sono note e consistono nei valori nei due dataset, y e x. Ciò che è sconosciuto sono la pendenza, b_1 e l'y-intercetto, b_0. Regression troverà la pendenza e - intercettare, in base alla linea di regressione ottimale. Poi, la variabile dipendente, y, può essere stimata, o prevista, sostituendo un valore per la variabile indipendente, x, e quindi risolvere per y (il valore x utilizzato deve essere compreso nell'intervallo di valori nel dataset, x).Best Fit LineSlope della migliore linea di adattamento
    L'equazione per trovare la pendenza della linea di regressione è:
    b_1 = frac {n (Sigma xy) - (Sigma x) (Sigma y)} {n (Sigma x ^ 2) - (Sigma x) ^ 2}
    dove n è il numero di coppie di dati (x, y).
    - intercettare la linea di adattamento migliore
    L'equazione per trovare l'y-intercetto della linea di regressione è:
    b_0 = frac{Sigma y - b_1 (Sigma x)} {n}
    Esempio: ritardare la linea di adattamento migliore sulla trama di scatter
    Assumere il seguente dataset di stipendi di partenza di 10 studenti e le relative GPAs associate.
    GPA
    STIPENDIO DI PARTENZA
    3,7
    52.000
    3,9
    55.269
    3,8
    53.300
    3,4
    44.119
    4
    53.161
    3,3
    43.500
    3,7
    49.080
    3,1
    43.500
    3,7
    52.000
    3,5
    50.700
    A dispersione dei dati, dove Starting Salary è la variabile dipendente (y) e GPA è la variabile indipendente associata (x) viene mostrata di seguito. Avviamento Stipendio è tracciato nella gamma da 35.000 a 60.000 e GPA da 2,5 a 4,5.
     
    Il coefficiente di correlazione di Pearson, r, è di 0,909078, indicando una forte correlazione statistica in quanto molto vicino al +1.
    Guardando il calcolo r di 0,909078 in una tabella r di valori critici per n=10, il r calcolato è maggiore della tabella r a livelli di confidenza .05 e .01. La tabella r a livello di confidenza .05 è di 0,632 e a .01 è di 0,765. La correlazione statistica è confermata.
    La variabile dipendente (y) sta iniziando Salaria e la variabile indipendente (x) è GPA. La forma dell'equazione di regressione è:
    y = b_0 + b_1 x
    Utilizzando la formula per la pendenza della linea più adatta, b_1 per n=10
    b_1 = 14320,18
    Utilizzando la formula per l'y-intercetto della linea migliore di adattamento, b_0, per n=10
    b_0 = -2032,96
    L'equazione di regressione, l'equazione della migliore linea di adattamento, è:
    y = -2032,96 + 14320,18 x
    Posa la linea di adattamento migliore sulla trama ci dà il seguente:
     
    Fare previsioniL'equazione di regressione può ora essere utilizzata per le previsioni. Possiamo stimare, ad esempio, che uno studente con un GPA di 3,2 possa avere uno stipendio di partenza di circa $43.791 €.
    Stipendio = 14320 (3,2) - 2033 = $43.791