Loading

FAB FEBRUARY SALE! 💰 25% off all PDF Certs & DiplomasEnds in : : :

Claim Your Discount!

Module 1: Relazioni Tra Data Set: Scatterplotti, Correlazione e Regressione

    Study Reminders
    Support

    Set your study reminders

    We will email you at these times to remind you to study.
    • Monday

      -

      7am

      +

      Tuesday

      -

      7am

      +

      Wednesday

      -

      7am

      +

      Thursday

      -

      7am

      +

      Friday

      -

      7am

      +

      Saturday

      -

      7am

      +

      Sunday

      -

      7am

      +

    CorrelazioneCorrelazione si riferisce alle relazioni esistenti tra i dataset. Ci sono molti tipi di relazioni che possono esistere tra due serie di dati. Ad esempio, c'è probabilmente una relazione e una correlazione significativa tra le età dei bambini e le loro altezze. La causale non è implicita per correlazione, tuttavia, anche se una serie di dati può causare l'altra. Per esempio, le età dei bambini possono causare le loro altezze.
    Il prezzo di una fetta di pizza nel tempo a NYC è correlato al prezzo di un passaggio in metropolitana a NYC in questo stesso periodo di tempo. Tuttavia, l'aumento del prezzo della corsa in metropolitana non provoca l'aumento del prezzo della fetta di pizza e viceversa. Piuttosto, c'è un terzo fattore che causa entrambi i prezzi a salire insieme; quello del costo della vita.
    Correlazione è esaminato in tre fasi.Una trama di dispersione viene creata ed esaminata.La Pearson Coefficiente di Correlazione, r, è calcolata ed esaminata.La Pearson Coefficiente di Correlazione, r, è paragonata ai valori critici per r per un determinato livello di significatività.ScatterplotA scatterplot è un grafico delle coppie ordinate (x, y) costituita da dati provenienti da due serie di dati, come l'età (x) e l'altezza (y) dei bambini. La trama di dispersione fornisce un'indicazione visiva rapida di una relazione.
    Dopo che la trama di dispersione è tracciata, possiamo analizzare il grafico per vedere se c'è uno schema. Se vi è uno schema rilevabile, come i punti che cadono in una linea approssimativamente retta, potrebbe esistere una possibile relazione tra le due variabili.
    La dispersione di età contro l'altezza potrebbe sembrare una delle quattro sotto.
     
    Trama A indica una relazione lineare positiva esiste tra l'età (x) e l'altezza (y) dei bambini. Con l'aumentare dell'età, così fa l'altezza.
    Plot B indica una relazione lineare negativa esiste tra l'età (x) e l'altezza (y) dei bambini. Con l'aumentare dell'età, l'altezza diminuisce.
    Plot C indica una relazione non lineare esiste tra l'età (x) e l'altezza (y) dei bambini.
    Trama D indicare nessuna relazione tra età (x) e altezza (y) dei bambini.
    Se la nostra trama sembra A o B sopra, allora ci sposteremmo sulla 2a fase, ovvero calcolare il coefficiente di correlazione, r.La Pearson Coefficiente di Correlazione, rIl coefficiente di correlazione, r, è un numero che descrive quanto siano vicini a una relazione lineare due serie di dati.
    Coefficienti di correlazione variano da -1 (perfetta relazione lineare negativa) a + 1 (rapporto lineare positivo perfetto). Più questo numero è più vicino a uno (positivo o negativo), più è probabile che i data set siano correlati. Un coefficiente di correlazione vicino a zero indica che i dati sono molto probabilmente non correlati a tutti.
    La formula per il calcolo r è:
    r = frac {n (Sigma xy) - (Sigma y)} {sqrt {[ n (Sigma x ^ 2) - (Sigma x) ^ 2] [ n (Sigma y ^ 2) - (Sigma y) ^ 2]}}
    Dove n = il numero di coppie di dati
    Sigma x = la somma dei valori x
    Sigma y = la somma dei valori y
    Sigma xy = la somma dei prodotti dei valori x e y per ogni coppia
    Sigma x ^ 2 = la somma delle piazze dei valori x
    Sigma y ^ 2 = la somma delle piazze dei valori y
    Creare una tabella per facilitare il calcolo.
    Riempire la tabella con i valori x e y. Quindi trovare i valori per il prodotto xy, i valori per x ^ 2, i valori per y ^ 2 e inserirli nella tabella. Quindi somma i valori e sostituendoli nella formula per r.
    x
    y
    xy x ^ 2 y ^ 2
     
     
     
     
     
    Sigma x: Sigma y: Sigma xy: Sigma x ^ 2: Sigma y ^ 2:
    Quando r è vicino a pm 1, la correlazione statistica è facile da rivendicare. Il problema si verifica quando il coefficiente di correlazione è da qualche parte intorno a + o - 0,5. Esiste una correlazione statistica? Per determinare se il coefficiente di correlazione è significativo, cercare il r calcolato r nella tabella r dei livelli critici.
    Livelli critici di rLa tabella dei livelli critici di r consente una determinazione della correlazione statistica con un livello di confidenza specificato.
    Per essere 95% fiduciosi di correlazione statistica, il valore r calcolato viene esaminato nella colonna per un valore critico di .05 con n coppie di dati. Se il valore calcolato è maggiore del valore in tavola, allora può indicare con 95% confidenza che ci sia probabilmente una correlazione statistica.
    Per essere sicuri del 99%, il valore r calcolato viene esaminato sulla colonna per un valore critico di .01 con n coppie di dati. Se il valore calcolato è maggiore del valore in tavola, allora si può affermare con 99% confidenza che ci sia probabilmente una correlazione statistica.