Loading
Note di Apprendimento
Study Reminders
Support
Text Version

Associazione tra Variabili categoriali

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

In questa lezione cominciamo con la discussione sull'argomento che abbiamo visto in precedenza che è come descrivere i dati numerici, e poi andremo avanti per discutere la misura dell'Associazione tra Variabili categoriali. Quindi, partiamo per la prima volta con la descrizione dei dati numerici in discussione.

Quindi, iniziamo con il piccolo match il seguente esercizio per capire cosa succede. Così, in questo, cerchiamo di abbinare le cose nella colonna A contro le cose nella colonna B. Così, ci sono 8 elementi che vengono date. Quindi, la posizione del picco è la prima cosa nella colonna A e se guardiamo alle opzioni, ci rendiamo conto che la posizione del picco indica quel valore che ha la frequenza maggiore, e quindi, deve essere la modalità che troviamo qui sotto la voce 6. Quindi, la posizione del picco sarà la modalità.
Nel secondo, vediamo la metà dei valori più piccoli. Quindi, se guardiamo le alternative, ci rendiamo conto che tra queste alternative, quando diciamo che la metà dei valori è più piccola, stiamo guardando il valore medio e ipotizziamo che questi valori siano ordinati, stiamo guardando il valore medio in modo che la metà dei valori siano più piccoli. Quindi, il momento che guardiamo ai valori medi, può essere solo una misura di tendenza centrale. Quindi, una misura di tendenza centrale che abbiamo in questa lista nella colonna B o mediana e modalità, abbiamo già usato la modalità, ma sappiamo anche che la mediana è una misura che si trova in mezzo. Quindi, il 50% dei numeri o il 50% dei dati sono inferiori alla mediana e il 50% è più della mediana. Quindi, metà dei valori sono più piccoli, la risposta corretta è la mediana.
Lunghezza della scatola in una trama di box; osserviamo che è la gamma interquartile, abbiamo visto quando abbiamo discusso nell'ultima lezione che possiamo trovare la mediana nella trama box, poi possiamo trovare il quartile inferiore e superiore e quindi, la lunghezza della trama è la gamma interquartile.
Istogramma con la coda lunga destra; esempio, i dati dello stipendio. così, l'istogramma con la coda lunga destra tra tutte queste opzioni è smorzato. Quindi, o quando la coda giusta è più lunga o la coda di sinistra è più lunga, diciamo che è sfaldata. Quindi in questo caso la risposta corretta è sfornata. Deviazione media quadrata dalla media. Così, dato un insieme di numeri, calcoliamo la media o la media aritmetica e poi scopriamo la differenza tra ogni numero e la media aritmetica e la quadratura e che in questa risposta è la varianza perché troviamo anche la media della somma delle deviazioni quadrate sulla media e quindi, la risposta corretta è la varianza.
Il prossimo è la radice quadrata della varianza. Questo è molto semplice, la radice quadrata della varianza che abbiamo già visto è la deviazione standard, e quindi, questa è la risposta. Quindi, un certo numero di deviazioni standard dalla media che viene data da un punteggio z, non abbiamo guardato il z score eppure sto solo introducendo questa idea in una normale distribuzione che abbiamo visto la curva a campana, c'è un punteggio z che si chiama (x - μ) /σ dove μ è la media e σ è la deviazione standard. Quindi, un certo numero di deviazioni standard dalla media sono chiamate il punteggio z che introduciamo ora utilizzando questo, e la proporzione della curva a campana all'interno di una deviazione standard dalla media è di 2/3, abbiamo detto circa 68%. Quindi, è il 2/3. Così, questo ci aiuta a capire i concetti di base che abbiamo visto nella lezione precedente.

Ora, guardiamo ad alcune vere o false domande per capire se abbiamo capito bene le cose. Quindi, la trama box mostra la media più una deviazione standard dei dati. La risposta è data anche nella stessa slide, ma analizzeremo la risposta dopo una discussione.
Quindi, se andiamo a capire qual è la trama box, la trama della scatola inizia con la mediana e non inizia con la media e quindi, la risposta deve essere falsa. Abbiamo anche visto la gamma nella trama box che è la gamma interquartile e la trama box non parla della media quindi, non può discutere di deviazione standard e quindi, la risposta è falsa. Mostra solo la mediana inferiore del quartile, il quartile superiore e i baffi. Quindi, i whisky sono circa 1,5 volte l'IQR che significa che tutti i dati che sono al di fuori dell'IQR si chiama Interquartile Range e quelli sono i baffi e alcuni dati sono al di fuori della gamma interquartile, ma un numero molto ridotto di dati è in realtà addirittura fuori dai whisky.
Se i dati sono a destra, la media è più grande della mediana, la risposta è vera. Abbiamo dimostrato che in una slide precedente in una lezione precedente. La rimozione di un outlier con z pari a 4 diminuisce la media; in realtà non abbiamo ancora discusso di z pari a 4 in grande dettaglio, ma ho fatto una menzione che z nella slide precedente che z deriva dalla distribuzione normale. Quindi, z uguale a 4 in curva a forma di campana è un punto abbastanza a destra che è molto più alto della media e quindi, se rimuoviamo un numero che è molto più alto della media, è abbastanza probabile che la nuova media computata si riduca e quindi, la risposta è vera.

La varianza aumenta man mano che il numero di osservazioni aumenta. uno può sempre dare un contresempio. Suppi, ho 5 numeri e scopri la varianza. ora includo un sesto numero che è uguale alla media aritmetica e se faccio che il contributo del sesto numero alla varianza è di 0, ma il denominatore aumenta con l'aggiunta di un numero e la varianza può diminuire. Quindi con un controesempio, si può dire che questo possa essere falso.
Se la deviazione standard è di 0, allora media è uguale alla mediana. Quindi, quando sarà la deviazione standard 0? La deviazione standard è di 0 quando tutti i valori sono uguali. Anche se un valore è diverso, allora ci sarà una deviazione standard positiva. Quindi, una deviazione standard è di 0 implica tutti i valori sono gli stessi che è uguale alla media che è uguale anche alla mediana e quindi, la risposta a questa domanda è vera.

Quindi, ora guardiamo a qualche domanda più semplice per intenderci. Ora, guardiamo un computer e poi diciamo che la dimensione mediana di cento file è di 2 MB. Colpiranno in una chiavetta a 2GB penna. La deviazione standard gioca un ruolo qui?
Ora, la risposta è data anche qui non possiamo dire perché mediana solo i colloqui dicono che 50% di questi 100 file o 50 file hanno una dimensione inferiore a 2 MB, dove potrebbe esserci uno che è alto e che potrebbe imbattersi in un 4 GB o qualunque cosa sia. Quindi, non si parla di quanto sia grande il file più grande, quindi non possiamo dire che tutti questi 100 file possano essere inseriti in una chiavetta a 2GB penna e così via.

La deviazione standard gioca un ruolo qui? Sì, la deviazione standard gioca un ruolo qui, perché se invece di dire che la dimensione mediana è di 2 MB, se dicessimo che la media è di 2 MB allora sappiamo che il totale è di 200 MB e poi possiamo prendere una decisione di metterla in un Pendrive del 2 GB. Pertanto, la media gioca un ruolo la deviazione standard gioca anche un ruolo se c'è un file che è più grande di 2 GB, poi la deviazione standard di questo sarà anche molto alta.

Guardiamo alla prossima domanda. Il tempo medio impiegato dagli studenti per prepararsi all'esame è di 20 ore con una deviazione standard di 5 ore. Hai parlato con uno dei tuoi amici e ha detto che ha passato 26 ore a prepararsi per l'esame. Sarebbe una sorpresa? La risposta è forse no, perché se supponiamo che questa normale distribuzione sulla quale vedremo più nel dettaglio man mano che ci muoviamo, ma abbiamo visto la curva a forma di campana, e poi abbiamo concluso che circa 68% o due terzi circa sono all'interno di una deviazione standard su entrambi i lati.
Quindi, se guardiamo un gran numero di persone che si preparano per gli esami, la media è di 20 e la deviazione standard è di 5. Quindi, vi aspettate circa due terzi di loro da trascorrere tra le 15 e le 25 ore che si preparano per l'esame. Quindi, se c'è una persona che ha trascorso 26 ore, significa solo che questa persona è al di fuori di questa due - terzi, ma all'interno di quell' altra - terza, e se è simmetrica metà di un - terzo. Quindi, questo studente può essere all'interno dei primi 20% o 18% e potrebbe non essere molto sorprendente perché il vostro amico potrebbe essere una persona molto studiosa che trascorre più tempo a prepararsi all'esame.

Ci si aspetterebbe che la distribuzione del seguito sia uniforme, non impressa, bimodale, simmetrica o spietata? Quindi, prima di tutto abbiamo anche dato le risposte di seguito per un preparatore pronto. Quindi, la distribuzione uniforme significa pressappoco sono tutte delle stesse dimensioni, unimodale c'è una modalità unica, bimodale ci sono due modalità, simmetrica la normale era simmetrica rispetto alla media, skewed che rappresenta la coda.
Quindi, il numero di canzoni presenti nei computer di 100 studenti, l'aspettativa generale sarebbe il numero di canzoni in un computer di 100 studenti potrebbe essere a destra con un picco massimo a 0.
È abbastanza probabile che più di un buon numero di questo 100 possa non avere una canzone e tra coloro che hanno canzoni, 1 o 2 maggio hanno un gran numero di canzoni e quindi, ci può essere una lunga coda a destra. Quindi, sarà proprio sfalsata. Quindi, se facciamo un presupposto che un gran numero di studenti non starebbe per avere una canzone sul computer, allora ci sarà un singolo picco a canzone pari a 0.
Altezze degli studenti in una classe di 50 studenti, le altezze degli studenti potrebbero essere bimodali perché non abbiamo detto quanti di loro sono uomini e quanti di loro sono donne. È abbastanza probabile che l'altezza media degli uomini sarebbe superiore all'altezza media delle donne così, potrebbe rappresentare una distribuzione bimodale.
Il peso esatto dei pacchetti di biscotti da 500 grammi, abbiamo già visto un esempio sull'imballaggio e così via. Quindi, potresti aspettarti in questo caso di essere normale con un picco ragionevole e una variazione più piccola, ma ci sarà una variazione. Valore di fatturazione in un supermercato; il valore di fatturazione in un supermercato potrebbe essere corretto con una sola modalità. Suppitiamo che questo sarà abbastanza simile al numero di canzoni, ma poi non avremo una sbirciatina a 0, avremo una sbirciatina ad una qualche piccola gamma che c'è, ci possono essere 1 o 2 piccoli clienti che avrebbero acquistato per una grande quantità di denaro. Quindi, potrebbe essere a destra con una modalità unica con una piccola gamma che mostra un picco molto alto e così via.

In questa domanda, mostriamo una distribuzione di marchi sotto forma di istogramma che viene mostrato qui e le domande sono, che sono più grandi: la media o la mediana? Quanti studenti hanno segnato tra il 30 e il 50? Trovare la media e poi la deviazione standard vicina a 20 o 50 e perché? Quindi, uno è anche noi abbiamo mostrato qui la deviazione media, mediana e standard, ma a volte osservando il quadro saremo in grado di dire qualche cosa.
In questo caso, la mediana è di 65, la frequenza da 60 a 70 è la frequenza media in questo caso in termini di punti dati e la mediana è il midpoint di questo 65, la media capita di essere 60,555. Uno sguardo generale ai dati ci dà la sensazione che in realtà sia spianato un po' a sinistra in un senso ci sono più punti con valori più alti sul lato destro e quindi, potremmo avere un caso in cui la mediana è in realtà superiore alla media. La media sarebbe da qualche parte qui sul lato sinistro e la mediana sarà più alta della media in questo caso.
Quanti studenti hanno segnato tra il 30 e il 50? Quindi, da 30 a 40, ci sono due studenti, 40 a 50 ci sono otto studenti. Così, 10 studenti hanno segnato tra il 30 e il 50. Trova la media, possiamo effettivamente calcolare la media. Quindi, questo è da 0 a 10 la frequenza è di 5, 30 a 40 la frequenza è di 2, e così via. Quindi, prendiamo ognuno di questi intervalli e prendiamo il midpoint. Quindi, da 0 a 10 è rappresentato da un midpoint di 5 e poi la frequenza è di 5. Qui il midpoint è di 35, la frequenza è di 2 e così via e poi possiamo moltiplicare il midpoint con la frequenza e poi dividerlo con la frequenza che è il numero di osservazioni. Otterremo la media che capita di essere 60,555 in questo esempio. La deviazione standard è vicina al 20 o è vicina al 50? In questo caso, la nostra risposta dimostra che la deviazione standard è di 21,95 che è in realtà più vicina al 20 rispetto al 50. E, si può anche cercare di calcolare indirettamente la deviazione standard. Quindi, il calcolo della deviazione standard diretta sarebbe sigma (∑fd2) / m, dove f è la frequenza, d è la deviazione tra la media e il punto midpoint di questa gamma e possiamo calcolare la deviazione standard e se lo facciamo, osserviamo che la deviazione standard, in questo caso, è in realtà più vicina al 20 rispetto al 50.

Ora, ci spostiamo su un altro argomento che è un'associazione tra variabili categoriali inizieremo questo argomento in questa lezione e poi continueremo questo argomento nella lezione successiva. Ora, analizziamo alcuni dati e cerchiamo di capire l'associazione tra variabili categoriali.
Ora, dobbiamo tornare a guardare le variabili categoriali. Abbiamo passato così tanto tempo con variabili numeriche. Quindi, dobbiamo tornare a variabili categoriali e fare un esempio per capirlo. Ora, suppitiamo che guardiamo agli studenti che hanno ottenuto l'ammissione a una scuola di gestione.
Suppamiamo inoltre che ci siano state 3849 domande e ipotizza che 65 persone abbiano finalmente aderito al programma. Ora, supponiamo anche che ognuno di questi 3849 studenti sia effettivamente andato ad alcune classi come parte della preparazione per l'ammissione al programma di gestione, e diciamo che consideriamo tre classi, classe o istituto numero 1, 2 e 3 che generiamo usiamo un'espressione generica chiamata classe 1, classe 2 e classe 3.
Così, 2166 persone sono passate alla classe 1, 1047 alla classe 2 e 636 alla classe 3. Così, il grafico a barre mostra che la classe 1 ha 2166 e così via e abbiamo anche questo caso in cui uscire da questo 3849 sapere che significa persone che non potrebbero o non hanno aderito è stato il 3849 in meno 65 e quelli che si uniscono al quale è un piccolo bar qui che dice sì, sono le persone che in realtà si sono unite.
Ora, torniamo a questi dati sotto forma di tavolo, poi abbiamo due valori per questo giunto, sì e no e abbiamo tre valori o tre variabili per le classi di preparazione che sono classe 1, classe 2, classe 3. Quindi, i dati che guardiamo sono questo, il totale è di 3849, 65 persone unite, 3784 o non hanno o non hanno potuto aderire.
Ora, questi dati sono ulteriormente suddivisi in questo 65 si divide in 37 che erano passati alla classe 1, 18 che erano passati alla classe 2, e 10 che erano passati alla classe 3, poi ci siamo resi conto che 2166 in totale erano andati in classe 1, di cui 37 entrati in programma e 2129 non sono entrati nel programma. Numeri simili sono 18, 1029 e 10 e 626.

Ora, cosa possiamo fare con questi dati e cosa possiamo capire da questi dati. In primo luogo, la cellula è di questo si chiama tabella di contingenza dove cerchiamo di associare due variabili categoriali.
Una variabile categoriale si unisce e non si unisce e l'altra variabile è la classe che hanno frequentato prima di unirsi e non aderendo.
Quindi, le cellule sono queste posizioni, ci sono 1 2 3 4 5 6 celle in questo e questa tabella è chiamata tabella di contingenza. Così, la tabella di contingenza mostra i conteggi dei casi di un contingente variabile categoriale sul valore di un altro. Quindi, se sì è una variabile categoriale e contingente su un'altra variabile chiamata classe 1, il che significa il numero di persone che hanno frequentato la classe 1prior per l'ammissione e hanno aderito al programma, il numero è 37.
Allo stesso modo possiamo spiegare i restanti cinque numeri. Quindi, le cellule di questa tabella di contingenza sono reciprocamente esclusive. Ogni caso dipende esattamente in una cella. Ora, il totale di 3849 è la somma di questi sei numeri e le somme delle colonne rappresentano il totale in ogni caso che aggiunge fino al 3849, la somma di fila aggiunge anche fino al 3849.
Il margine destro mostra la distribuzione di frequenza delle persone selezionate. Si chiama distribuzione marginale; 65 su 3849, 3784 su 3849 e così via.
Ora, possiamo rappresentare questa cosa sotto forma di percentuali. Ora, abbiamo mostrato questo tavolo, il tavolo è diventato un po' più grande perché abbiamo scritto tutte le percentuali. Ora, spieghiamo solo uno su questi sei, e poi possiamo capire il resto di loro.
Se guardiamo a questo particolare blocco o a questa particolare posizione, ora 10 studenti sono riusciti a entrare nel programma dalla classe 3. Così, 10 studenti della classe 3 hanno aderito al programma. Ecco, questo è il 0,26% di tutti gli studenti che hanno applicato. Quindi, 0,26% di 3849, questo è il 1,57% di coloro che sono andati in classe 3. Quindi, quelli che sono andati in classe 3 sono 636. Quindi, il 10 entro il 636 è 1,57%. Questo è il 15,38% degli studenti che hanno aderito al programma. Quindi, 10 diviso per 65 è 15,38. Quindi, abbiamo questi tre rapporti o percentuali che vengono date qui per il caso unito al programma e alla classe 3. Il primo, il numero che è andato in classe 3 e si è unito al programma su tutto il totale, il numero che è andato in classe 3 e si è unito al programma fuori da tutti coloro che sono andati in classe 3, e il numero che è andato in classe 3 su di queste persone che si sono uniti è dato anche qui. Quindi, tipicamente 10 diviso per questo totale, 10 diviso per questo totale, e 10 diviso per questo totale.
Quindi, se guardo a questo, ad esempio, il primo sarà il 2129 diviso per il 3849 che è il 55,31 il prossimo sarebbe 2129 diviso per il 2166 che è questo totale che è 98,29 e il terzo è 2129 diviso per 3784 che è 56,26. Così, possiamo calcolare tutte queste percentuali dal tavolo che effettivamente abbiamo.

Ora, siamo dentro se siamo interessati a sapere c'è un'associazione tra persone che si uniscono e la classe o siamo interessati a sapere quale classe produce le più alte proporzioni degli studenti che aderiscono. Quindi, la percentuale complessiva di studenti che aderiscono è 1,69 che è 65 diviso per 3849. Ora, questa proporzione è di 37 su 2166 uniti che sono 1,71, 18 su 1047 uniti che sono 1,72 e 10 su 636 uniti che sono 1,57. La media 65 su 3849 è entrata a 1,69%.
La distribuzione di una variabile che si limita ai casi che soddisfano una condizione si chiama distribuzione condizionata. Quindi, in questo caso, la condizione è sì, aderendo al programma in tutto questo.
Quindi, la distribuzione condizionale si limita a una riga. In questo caso la variabile condizionale è no e si è nuovamente limitata a una riga in cui il 98,29% non ha o non ha potuto aderire a coloro che sono andati in classe 1, 98,28 classe 2, e 98,43 alla classe 3. Quindi, si limita a una riga.
Ora, possiamo guardare l'altro fuori classe uno quelli che sono andati, poi si rendono conto che c'è un sì e c'è un no. Ora, si limita a una colonna dove diciamo che il 1,71% potrebbe arrivare, il 98,29% no. Quindi, si limita a una riga o a una colonna.
Ora, siamo di nuovo interessati a quale si fa il più alto. Ora, campiamo il tavolo di contingenza a qualcos'altro e diciamo che le persone che si sono unite e le persone che non si sono unite, e poi guardiamo anche i luoghi dove sono successe interviste.
Così, ora guardiamo al caso in cui fuori da tutti quelli che avevano fatto domanda, ora un certo numero di persone sono state chiamate per l'intervista e diciamo che un totale di 975 persone sono state chiamate per l'intervista, su cui 65 persone finalmente unite e 910 non hanno o non hanno potuto aderire al programma. Ora, abbiamo dati che sono i 65. Ora, l'intervista ci porta un'altra variabile categoriale e questa variabile categoriale potrebbe essere un luogo dell'intervista che potrebbe essere Chennai, Delhi, Mumbai e Calcutta. Quindi, ci limitiamo a quattro posti. Quindi, una variabile categoriale è un luogo di intervista e l'altra variabile categoriale è sì o no.
Così, ora, possiamo scoprire un'associazione e provare a vedere se c'è un'associazione dove la città dove la persona è stata intervistata ha avuto una proporzione più alta o una proporzione più significativa o c'è un'associazione tra la città e la selezione. Così, possiamo rispondere a questa domanda e possiamo fare un'analisi simile e questi calcoli vengono mostrati. Così, qui la distribuzione condizionata è la città con un sì o un no, si limita a una colonna e sì o no, ancora rispetto alla città con limitazioni di fila.
Ora, guardiamo ad una qualche rappresentazione pittorica di questi dati. Così, la prima foto, questo è un grafico a barre, ma questo grafico a barre rappresenta anche sotto forma di percentuali e poi mostra i quattro posti dove per esempio le interviste si sono tenute e poi dice che su questo 10 e 80, quindi, su 90 persone che ci hanno fatto dire frequentano le interviste a Kolkata, 10 persone hanno aderito al programma. Così, il 11,11% ha aderito al programma e il 88,89% non ha o non ha potuto aderire al programma. Che qui viene mostrato qui il 11,11% viene mostrato qui nel colore blu e il 88,89% di Kolkata viene mostrato nel colore rosso.
Grafici simili sono mostrati per Mumbai, Delhi e Chennai e ipotizzano che queste siano le quattro città in cui si sono tenute interviste. Così Mumbai, i 5,39% che in realtà sono stati chiamati e hanno partecipato al programma un 94,61% non hanno potuto aderire o non si sono uniti o non sono stati selezionati, e così via. Analogamente, possiamo vedere questi grafici per Delhi e Chennai che sono le quattro città che stiamo osservando.
Mostriamo anche un altro grafico che è possibile generare utilizzando il software e lasciatemi spiegare questo grafico. Ora, guardiamo Kolkata in questo grafico. Ora Kolkata, 15% delle persone ora 65 persone hanno aderito a cui 10 persone erano di Kolkata e quindi, il 15,38% delle persone che si sono unite sono di Kolkata, 35,38% sono di Delhi e così via. Ora, tra coloro che non si sono uniti o non hanno potuto aderire o non sono stati selezionati, ottanta sono di Kolkata su 910, pari a 8,79%.
Quindi, queste percentuali aggiungono fino al 100, queste aggiungono anche fino al 100, ma ora cerchiamo di capire questa foto. Se guardate Kolkata 15% e 8% sono qui. Quindi, questo 15% è il blu che è qui, il 8,79 è il rosso. Ora, questa lunghezza di questo se ipotizza che la lunghezza totale sia di 100 o 100, la lunghezza di questo blu è in realtà 15,38 divisa da 15,38 più 8,79 e che arriva a circa 62 o 63%.
Per Delhi sarà la lunghezza blu del colore blu o della parte blu del bar sarà 35,38 diviso per 35,38 più 30,99 che sarebbe appena sopra i 50% e lo potete vedere qui. Per Mumbai è possibile vederlo è 21,54 / (21,54 + 27,03) che sarà inferiore a 50% e lo si può vedere.
Quindi, questa è un'altra rappresentazione, ma dobbiamo capire cosa questo grafico a barre in realtà rappresenta e questo grafico a barre cerca di raccontare che mentre il 15,38% delle persone che hanno aderito provengono da Kolkata e il 8,79% delle persone che non hanno o non ha potuto aderire provenivano da Kolkata, le percentuali relative di queste sono riportate rispettivamente nelle barre blu e rosse.
Possiamo mostrare gli stessi dati in due diverse forme. Ora, questa è una rappresentazione del grafico a barre subito direbbe che se è Kolkata allora stiamo parlando di 15,38% e 8,79% e li potete vedere nella barra blu, rispettivamente come la barra rossa. Per Delhi sono 35,38 e 30,99 e così via.
Ora, tutto il blues aggiungerà al 100 e tutte le redazioni si aggiungeranno al 100. Si può anche pensare ad un altro grafico a barre che qui non viene mostrato, dove il 100 del blu è in realtà diviso in quattro parti con 15,38 per Kolkata, 35,38 per Delhi e così via. E analogamente anche il 100 per il rosso è diviso in quattro parti: la parte Kolkata che è 8,79, la parte di Delhi che è 30,99, e così via.
La rappresentazione più semplice ipotizza che queste siano percentuali e vogliamo generalizzarle e poi dire di chi si è unito, il 15,38 è arrivato da Kolkata. Così, il grafico a torta mostra questa rappresentazione e il grafico a torta mostra anche le percentuali di persone che non hanno o non hanno potuto aderire al programma dalle quattro città in cui sono state intervistate.
Ci può essere un altro tipo di esempio che potrebbe essere il tipo di camicie.

Così un altro esempio di associazione tra variabili categoriali. Quindi, avremmo potuto farci dire circa 510 magliette vendute in piccole, medie e grandi dimensioni diverse e in tre diverse tipologie che è una manica piena, una manica a metà e una maglietta. Quindi, ci sarebbero tre magliette piene di maniche, metà maniche e maglietta con piccole, medie e grandi. Una serie di variabili categoriali è la dimensione in base alla quale è piccolo, medio e grande, l'altro sarebbe il tipo di camicia che è full sleeve, mezza manica e una maglietta.
In modo simile, utilizzando i dati, possiamo calcolare queste percentuali, e queste vengono mostrate qui.
Abbiamo anche mostrato questi in forma di grafico a barre segmentato con i numeri corrispondenti per grandi, medie e piccole per le tre categorie di camicie.
Gli stessi dati possono essere rappresentati anche utilizzando una trama a mosaico che qui viene mostrata, questi sono tutti modi di rappresentare questi dati che prima sono rappresentati nella tabella.
Potremmo guardare un altro tipo di associazione; diciamo che potremmo pensare a due compagnie aeree che chiamiamo XX e YY e alcuni dati sull'arrivo in orario e un ritardo. Quindi, c'è una variabile che è un momento di arrivo che è pungente e di ritardo e l'altra variabile categoriale sarebbe la compagnia aerea XX e la compagnia aerea YY e potremmo pensare a 220 voli per i quali sono stati presi dati, poi potremmo ottenere alcuni numeri come 86, 81 e le percentuali corrispondenti.
Quindi, per questo tipo di dati, saremmo interessati a scoprire se c'è un'associazione tra arrivo e ritardo on-time, con diverse compagnie aeree che sono in esame. Così, analizziamo i dati di circa 220 voli e possiamo fare un tavolo come questo. Ora, come facciamo in realtà a calcolare la misura? C'è una misura che possiamo usare e arrivare a una conclusione che ci sia associazione.

Continuiamo la discussione sull'Associazione tra variabili categoriali.
Stavamo guardando questo esempio nella lezione precedente. Così, analizziamo una serie di variabili che è in partenza e ritardo in partenza e abbiamo 2 compagnie aeree che ci fanno dire di chiamarle XX e YY. Ecco, questo è il tavolo di contingenza che spiega questo. Quindi, dati per 220 voli e diciamo che la compagnia aerea XX in 86 istanze partì in tempo e 34 istanze, c'è stato un ritardo di qualche minuto e così via.
Quindi, ora scopriamo un'associazione; possiamo dire ad esempio, che XX o YY abbia una migliore performance di partenza on-time. Quasi attraverso questi dati ci rendiamo conto che la compagnia aerea XX, il 72% dei tempi è partito sul tempo, mentre la compagnia aerea YY, il 81% dei tempi è partito sul tempo e quindi, potremmo dire al momento che YY ha una performance migliore sulle prestazioni di partenza rispetto alla compagnia aerea XX. Così, abbiamo cercato di rispondere a una domanda. La compagnia aerea YY ha una performance migliore?

Vogliamo anche rispondere a un'altra domanda. C'è un'associazione tra la compagnia aerea e la performance o non c'è associazione? Così, definiremo un paio di metriche per l'associazione tra le variabili categoriali in questa lezione, ma continuiamo la nostra discussione su quella domanda, YY ha una performance migliore? In base a questi dati sì perché il 81% del tempo sembra discostarsi nel tempo mentre, XX lo fa solo per il 72% dei tempi.
Ora possiamo portare in una terza variabile che può aiutarci a capire o che può portare in una prospettiva diversa l'intera analisi. Ora portiamo anche una terza variabile che ci lascia considerare il tipo di volo e potremmo chiamare quel volo in 2 tipi che potrebbero essere un volo punto - punto o un volo di salto. Quindi, in un volo di salto, intendiamo che il volo inizia all'aeroporto A va a B, poi va a C mentre, in un punto a punto va direttamente da A a C e così via.
Quindi, aggiungiamo questa variabile e guardiamo questa direzione, e se lo facciamo e ipotizziamo che gli stessi dati su 220 voli siano ormai stati catalogati o che ora siano stati computati nuovamente in base al tipo di volo. E diciamo ora, che i 86 voli che potete vedere qui i 86 voli sono ormai diventati 50 voli che sono salti e 36 voli che fanno da punto a punto e così via. E quando facciamo questa analisi ci rendiamo conto che per i voli hopping, la compagnia aerea XX sembra avere prestazioni migliori di YY mentre, nei voli point - to - point, YY sembra avere prestazioni migliori di XX.

Quindi, quello che comprendiamo attraverso questo esempio è quando abbiamo considerato questi 2 tipi di variabili categoriali, abbiamo concluso che la compagnia aerea YY sembra avere prestazioni migliori, ma quando abbiamo portato una più variabile che è la natura o il tipo di volo, ora ci rendiamo conto che per un tipo di volo, XX sembra essere migliore e per l'altro, YY sembra essere migliore. Quindi se si tratta di un volo di hopping, XX sembra avere prestazioni migliori. Quindi la variabile esterna che influenza le prestazioni è chiamata variabile lurking e la presenza o il cambiamento attraverso questa variabile lurking si chiama anche il "paradosso di Simpson".

Ora, guardiamo ad alcuni esercizi in cui possiamo identificare le variabili di lurking e possiamo vedere l'effetto di esse. Per esempio, potremmo guardare i punteggi di due cricket e se volete fare quel paragone sulla consistenza, allora potremmo pensare a quali tipi di partite; match day versus day-night match, la squadra che si batta per primo contro squadra battendo secondo, battendo posizione del giocatore in particolare posizione di apertura, posizione medio - ordine e così via.
Ora, per esempio, potremmo guardare qualcosa come questo più grande o uguale a 30 punteggi, due giocatori AA e BB e potremmo avere una performance come questa. Mentre, se abbiamo guardato le prime innate e le seconde innate, poi si vede che le prestazioni cambiano, e la persona BB sembra ora avere una percentuale più alta rispetto a quella di cricket AA e così via.
Allora, come misuriamo l'associazione tra variabili categoriali? Quindi, facciamo un esempio e cerchiamo di definire una misura o una metrica per scoprire l'associazione, c'è un'associazione o non c'è associazione. Quindi, i dati che guardiamo sono, cerchiamo di frequentare le lezioni quando il docente non partecipa.
Ora abbiamo due tipi di studenti in classe potremmo avere laureati freschi che erano entrati in un programma di master o e potremmo avere persone con esperienza lavorativa che arrivano a un master. Quindi, una variabile categoriale è laureata fresca e gli studenti con esperienza di lavoro che viene mostrato qui e l'altra variabile sono frequentare le classi e saltano le lezioni.