Loading
Note di Apprendimento
Study Reminders
Support
Text Version

Casi di comprensione, Variabili e Tipi di dati

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

In questa lezione apprenderemo alcuni esempi per comprendere in modo più dettagliato questi tipi di dati. È anche importante che in statistica più esempi guardiamo, più varietà di situazioni che guardiamo, la nostra comprensione dei concetti migliorano. In primo luogo impareremo i concetti, poi cercheremo anche di applicarli ad alcune situazioni, e avremo una sorta di sessione tutorial su ogni argomento e la prima parte di questa lezione fungerebbe da tutorial dove cerchiamo di applicare e cercare di risolvere, alcuni semplici problemi per capire cosa abbiamo imparato nella lezione precedente. Quando creiamo tabelle dati, abbiamo righe e colonne le colonne sono chiamate variabili, come il nome, l'età di genere, il punteggio del gatto o il punteggio in un esame competitivo, e l'esperienza lavorativa potrebbe agire come variabili; mentre i casi o le osservazioni sono specifiche per gli individui. E se c'è uno studente o un candidato di nome Akhil, allora si può avere un caso in cui il nome è Akhil, il genere è maschile, i secoli 27. Il punteggio è di 95,27 e l'esperienza lavorativa è di 5. Così, abbiamo anche visto che i casi o le osservazioni sono righe e nomi variabili sono colonne, e in generale avremo più casi e osservazioni in una determinata tabella rispetto al numero di variabili. Un esempio semplice potrebbe essere un'auto di proprietà di 10 persone. Un altro esempio sarebbe il reddito di 20 dipendenti. Una terza situazione potrebbe essere la dimensione dei vestiti se si va in un negozio di abbigliamento e si inizia a guardare le magliette, si potrebbe trovare un piccolo, medio, grande, extra large e così via. Si potrebbe pensare a un certo numero di studenti che sono presenti in una classe o che sono assenti in una classe. Si potrebbe pensare all'istruzione di persone come studiate fino al liceo, un laureato o un post - laurea o un dottorato di ricerca o un dottorato. Ognuno di questi cerchiamo di dare un nome e indicare il tipo di variabile a cui questo nome appartiene to.Quindi, se prendiamo queste auto di proprietà di 10 amici, il nome variabile potrebbe essere modello o marchio. Ad esempio, l'auto potrebbe essere un'auto Ford o una Hyundai, o un Maruti come il caso forse. Ovvero il nome variabile che è il modello o il brand e che i dati sono categoriali. Ora, se guardiamo al reddito di 20 dipendenti, il nome variabile che possiamo dare potrebbe essere stipendiato o potrebbe essere reddito, e il tipo di dati è numerico. Ora possiamo capire perché diventa dati numerici perché abbiamo già imparato che i dati numerici che possiamo aggiungere e sottrarre, possiamo anche moltiplicare e dividere. Quindi, se i dati sono tali da aggiungere e sottrarre il che significa che la differenza è interpretabile o possiamo interpretare la differenza. Poi diventa dati di tipo di intervallo. Mentre anche una moltiplicazione può essere spiegata allora diventa un dato di livello di rapporto. Quando confrontiamo i redditi o gli stipendi, è anche possibile dire che lo stipendio di persona x è più di una certa quantità rispetto allo stipendio di persona y. Ed è anche giusto dire che la persona x ottiene il 20% in più rispetto allo stipendio di persona y o ottiene una volta e mezzo lo stipendio dell'altra persona. E quindi il reddito di 20 dipendenti arriva sotto il tipo numerico di dati. Dimensione dei vestiti come esempio, si va in un negozio di abbigliamento che si potrebbero trovare almeno 4 diverse dimensioni che sono piccole, medie, grandi e extra large. Quindi, il nome variabile può essere di tessuto di dimensioni, e diventa ordinale nel senso che possiamo classificarli. E possiamo generalmente concludere che l'extra - large più grande, mentre la grande dimensione è più grande di medie dimensioni, e la taglia medio è più grande di piccole dimensioni. È molto difficile dire che se guardiamo a quelle misurazioni, e poi confrontiamo e poi diciamo che il mezzo è più grande di piccolo da una certa quantità. Per farlo abbiamo bisogno di più dati abbiamo bisogno di più misurazioni. Basta vedere la classificazione, un piccolo, medio, grande e extra - grande possiamo categorizzarli come dati ordinali. E concludere che le piccole dimensioni sono più piccole di medie dimensioni, che a sua volta sono più piccole di grandi che a loro volta sono più piccole di quelle extra - large. Ma la misura in cui uno è più piccolo o più grande non viene spiegato e quindi, diventa numero di dati ordinale di studenti assente per una classe potrebbero essere assenti e ricade rapidamente in dati di rapporto. Perché se ieri 10 popoli erano assenti ieri e 5 persone erano assenti oggi, non è solo possibile affermare che gli assenti di oggi sono stati il 5 in meno rispetto agli yesterdays, è anche possibile dire che ieri il numero delle persone era assente. Pertanto, sia l'aggiunta, la sottrazione che la moltiplicazione, la divisione è possibile e quindi, possiamo definire i dati di tipo ratio. Guarda l'educazione delle persone. Ci sono livelli di istruzione distinti che sono stati indicati. Quindi, il nome variabile potrebbe essere di livello educativo, e sarebbe arrivato sotto le persone categoriali, e l'esempio dato nella slide precedente potrebbe essere studiato fino al liceo, ha fatto la laurea, ha fatto post - laurea, e ha perseguito un dottorato di ricerca abbiamo capito che una persona particolare potrebbe cadere in una qualsiasi di queste categorie. Quindi, arriva come variabile categoriale e all'interno potrebbe essere una variabile nominale. Ora, guardiamo qualche esempio in più per capire. I codici pin sono esempi di dati numerici è vero o falso, la risposta è falsa e i codici pin sono esempi di dati categoriali. Anche se i codici pin sono numeri uno potrebbe pensare subito che rappresenterebbe dei dati numerici, in realtà non rappresenta dati numerici, perché non possiamo né aggiungere né sottrarre né moltiplicare il divario, e farne conclusioni significative. E quindi i codici pin sono esempi di dati categoriali. Il secondo sarebbe che i casi rappresentino una colonna in una tabella dati. I casi rappresentano colonne in una tabella dati è falsa. La frequenza delle serie storiche è la spaziatura temporale tra i dati. Quindi, per rispondere a questa domanda dobbiamo anche capire quali sono i dati di serie temporali. I dati di serie temporali sono essenzialmente dati misurati nel tempo. Per esempio, se stiamo cercando di lasciarci dire una classe MBA, e poi potremmo tornare indietro e dire nell'anno 2018 abbiamo 70 studenti in classe. Nell'anno 2017 abbiamo avuto 65 studenti in classe. Anno 2016 potremmo avere 73 in classe e così via. Quindi, misuriamo qualcosa in un periodo di tempo, ad esempio, il numero di studenti in classe, le vendite in 12 mesi dell'anno, i prezzi azionari nelle ultime settimane, il prezzo della benzina o del carburante in 30 giorni di un mese e così via. Così, uno può dare diversi esempi per i dati della serie temporale. Vedremo anche alcune situazioni in questo corso dove guardiamo alle serie temporali. E con queste informazioni torniamo alla questione della frequenza delle serie temporali è la spaziosità temporale tra i dati. Quindi, la spaziatura del tempo tra i dati è la frequenza in una serie temporale. La Scala Likert rappresenta i dati numerici. Quindi, la scala Likert è una scala in cui diciamo se ci piace o ci piace qualcosa che si muove da un fortissimento. E Likert scala non rappresenta dati numerici, rappresenta dati ordinali e quindi, dati categoriali. Un tipo di ranghi allo stesso tempo. In questa scala diciamo che iniziamo con forza d'accordo per concordare, e poi va a discapito fortemente, e una persona prende uno di loro ha dato una situazione. Quindi, mentre possiamo dire che concordiamo fortemente è un accordo più forte che prendere d'accordo. Difficile dire quanto sia forte o misurare la differenza tra le due cose. E quindi, non rappresenta dati numerici, rappresenta dati categoriali. L'aggregazione dei dati aggiunge più casi; l'aggregazione dei dati in realtà riduce il numero dei casi perché l'aggregazione significa aggiunta, e come aggiungiamo noi riduviamo solo il numero di casi o osservazioni e quindi, è necessario capire che l'aggregazione non aggiunge più casi, riduce il caso. Quindi, se vogliamo davvero presentare i dati in una forma più precisa allora ricordiamo di aggregare i dati. Quindi, questi esempi ci hanno fatto capire date diverse situazioni; se i dati ricade sotto categorie categoriali o numeriche e all'interno di quelle sottocategorie come l'intervallo ordinale e così via. Abbiamo già visto qual è la serie temporale, la serie temporale è in sostanza dati misurati in diversi punti nel tempo e i dati trasversali significano essenzialmente guardare i dati ad una certa istanza nel tempo. Ecco, questa è la differenza tra i dati cross - settoriali e quelli di serie temporali. Ora guarderemo questi 5 esempi per capire se sono serie trasversali o temporali. La prima situazione sarebbe un'azienda che ha dati sul numero di dipendenti che si trovano nello schema PF, e l'importo che hanno nel loro fondo di previdenza. Ora, si tratta di dati trasversali, perché questi dati vengono presi a un certo punto, e non vengono presi in punti diversi per il confronto. Così, il primo esempio è un esempio di quello che si chiama dati incrociati. Situazione 2: circa un migliaio di persone sono state chieste se l'India potesse vincere la Coppa del mondo del cricket. Ancora questo è un esempio di dati trasversali perché in un certo momento chiediamo a un certo numero di persone se qualcosa accadrebbe o non accada. Situazione numero 3, numero di persone che sono salite per più di 5,000on 5 giorni di una settimana. Ecco, questo è un esempio di dati di serie temporali, perché i dati vengono misurati secondo una certa frequenza, che è un giorno, e su 5 giorni consecutivi o 5 giorni della settimana misuriamo il numero di persone che sono salite per più di 5.000 minuti. Situazione 4, 100 clienti hanno dato un feedback, 60 hanno detto eccellente, il 30 ha detto media mentre il 10 ha detto povero. Ancora un esempio di dati trasversali, perché la dichiarazione non dice esplicitamente che il feedback è stato raccolto su punti diversi nel tempo a frequenze regolari e così via. Potremmo prendere questo come dati trasversali. Un certo numero di auto, grandi auto, piccolo parco auto davanti a un supermercato il 7 giorni di una settimana. È simile a quello che abbiamo visto al punto 3, dove questi dati vengono raccolti in diversi punti nel tempo e quindi, si tratta di dati di serie temporali. I tempi sono necessari per comprendere questa classificazione. Perché certe analisi specifiche del tempo - serie staremmo studiando in seguito nelle statistiche, magari non in questo corso e quindi, introduciamo questa idea che una volta che guardiamo i dati abbiamo anche bisogno di capire se è trasversale, il che significa che sono dati che vengono assunti in un certo punto nel tempo, oppure istorici serie dove sono dati raccolti nell'arco di un periodo di time.Now, ci spostiamo su alcuni aspetti più aspetti dei dati, e ora cerchiamo di descrivere data.Quindi, prima nell'ultima lezione, abbiamo introdotto il termine chiamato dati categoriali, poi li abbiamo classificati ulteriormente in valori nominali e ordinali. Ora, cerchiamo di descrivere e vedere come presentiamo i dati categoriali all'utente. Così, ho appena dato un esempio da lasciarci dire dal cricket, e abbiamo prelevato alcuni numeri i dati sono dati immaginari, non rappresenta i dati dal vivo, e suppiliamo che questa domanda sia stata posta in un sito di cricket a chi segnerebbe più esecuzioni in lasciarci dire un popolare torneo 20 - 20. E gli utenti potrebbero prelevare un certo numero, e suppamiamo che questi siano i nomi di questi giocatori che in realtà sono stati votati dalle persone. E suppliamo che questi siano il numero di voti che sono stati interpellati da ciascuno di questi giocatori. Ad esempio, il giocatore numero uno ci fa dire sondaggi 45.276 voti o 45276 persone credono che il giocatore numero uno qui elencato segnerebbe il massimo runs.Quindi, questo è un dato da tavolo dove abbiamo 4 colonne e la prima colonna sarebbe il nome del giocatore, la seconda colonna è il numero di voti polling, la terza colonna sarebbe semplicemente la frazione dei voti totali polling e la quarta colonna è la frazione rappresentata come percentuale. Quindi, perché questo rappresentato come percentuale, le percentuali che diciamo aggiungerebbero 200 e i rapporti si aggiungerebbero a uno. Così ora si tratta di una tabella dati o di una tabella di frequenza che rappresenta la distribuzione della variabile categoriale come tabella. E la variabile categoriale è il numero di voti interpellati. Tai è un modo per presentare i dati categoriali, dicendo che questi sono i casi e questi sono i dati. E il vantaggio di questo tavolo di frequenza è che siamo in grado di presentare tutti i dati che desideriamo presentare. Ma lo svantaggio è che questo tavolo può diventare più grande man mano che il numero dei casi diventa grande. Ad esempio, abbiamo già dei nomi qui e ci vorrebbe anche se presentiamo tutte le informazioni che desideriamo presentare, si ottiene una sensazione che se questa si corre ad una seconda pagina o se ci sono più casi e osservazioni, diventa difficile gestire questo tipo di data.Quindi, un modo è quello di guardare un tavolo per presentarlo, mentre l'altro è guardare le foto per presentare questo tipo di dati. Ecco, questa è una foto che presenta gli stessi dati in forma pittorica. E questa foto mostra ora i nomi che sono qui, e mostra anche un bar che rappresenta il numero di voti che questa persona ha polling. Potete vedere come la persona che ha interpellato, il massimo è vicino a circa 50 mila, sondaggi o voti e qui c'è qualcuno che ne ha circa 15.000. Un grafico a barre è un modo molto comodo di presentare una variabile categoriale. Ci sono 2 tipi di grafici a barre e questo grafico a barre si chiama grafico a barre orizzontali e l'altro che vedremo in seguito viene definito grafico a barre verticali. In questo queste barre rappresentano il numero che desideriamo presentare e questo numero è il numero corrispondente alla variabile categoriale. Se prendiamo questo giocatore particolare, allora questo bar rappresenta il numero di voti che questa persona ha ottenuto. Ora si può avere la sensazione che questo grafico a barre presenti i dati in in forse una forma leggermente bella dove siamo in grado di avere questi bar che rappresentano ciò che in realtà vogliamo rappresentare. Forse un leggero svantaggio di questa rappresentazione è che osservando questo bar è leggermente difficile dire qual è il numero esatto di voti o sondaggi che questa persona ha ottenuto. Uno può dire solo che c'è tra 40 a 50000 e molto più vicini a 50000, si potrebbe avere la sensazione che questo sia tutto; tra il 48 al 49000. Quindi, nonostante questo, il grafico a barre è accettato come un modo molto comodo e simpatico di presentare una variabile categoriale.