Loading

Alison's New App is now available on iOS and Android! Download Now

Module 1: I Big Data Managed Services nel Cloud

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Crea Pipeline ETL utilizzando Cloud Dataflow
In questo argomento si saprà come è possibile utilizzare il dataflow Cloud per eseguire, estrarre, trasformare e caricare le operazioni. Il cloud dataflow offre lo streaming semplificato e l'elaborazione dei dati batch che ne fa parte un servizio di elaborazione basato su fascio Apache per sviluppare ed eseguire una gamma di modelli di elaborazione dei modelli di elaborazione dei dati trasformate e carico bash e streaming. Si utilizza il cloud dataflow per costruire i pipeline di dati monitorarne l'esecuzione e trasformare e analizzare tali dati. Soprattutto gli stessi oleodotti lo stesso codice che scrivi funziona sia per un dato batch che per i dati in streaming. Esplorerai più in dettaglio le pipeline a breve. Il flusso di dati cloud automatizza completamente i test operativi come la gestione delle risorse e l'ottimizzazione delle prestazioni per la tua pipeline tutte le risorse sono fornite su richiesta e in scala automatica per soddisfare i requisiti. Il flusso di dati cloud fornisce supporto integrato per l'esecuzione tollerante di faglia a   è coerente e corrotto indipendentemente dalla dimensione dei dati, dalla dimensione del cluster, dal pattern di elaborazione o anche dalla complessità della propria pipeline. Attraverso l'integrazione con il GCP il dataflow di console console fornisce statistiche come le pipeline throughput e lag nonché il registro consolidato e l'ispezione   tutto in prossimità di real-time si integra anche con il cloud storage, il cloud pub sub cloud datastore cloud big table e bigquery per i dati di seamless che ne elaborano la colla che può reggere tutto insieme. Può anche essere esteso per interagire con altre fonti e sincs come hdfs. Google fornisce modelli di avvio rapido come il flusso di un numero rapidamente distribuito di pipeline di dati utili senza richiedere alcuna esperienza di programmazione di fascio Apache. I templati rimuovono anche la necessità di sviluppare il codice della pipeline e quindi la necessità di considerare la gestione delle dipendenze dei componenti in quel codice di pipeline che farete un laboratorio in seguito noi avremo creato un pipeline in streaming utilizzando uno di questi modelli di dataflow di Google Cloud. Consente di guardare le pipeline ora in più dettagli una pipeline rappresenta un rocesso completo su uno o più set di dati. I dati potrebbero essere portati da fonti di dati esterne che hanno una serie di operazioni di trasformazione come i filtri joins, le aggregazioni etc hanno applicato che i dati per dargli un qualche significato e per ottenere il suo modulo desiderato questi dati possono poi essere scritti su un lavandino il lavandino potrebbe essere all'interno di gcp o esterno il lavandino potrebbe addirittura essere lo stesso della sorgente di dati che l'oleodotto stesso è quello che ha definito un grafo aciclico diretto o un dag. Le PCollezioni sono contenitori specializzati e di dimensioni quasi illimitate rappresentano una serie di dati in pipeline. contenitori specializzati e di dimensioni quasi illimitate che rappresentano una serie di dati che si trovano nella pipeline questi datasets da deporre anche come dimensione fissa come i dati del censimento nazionale o su un basso e come un feed Twitter o dati da sensore meteorologico   in arrivo continuamente. Le PCollections   sono l'input e l'output di ogni singola operazione di trasformazione,   i transform sono i passaggi di elaborazione dati all'interno delle tue trasformazioni pipeline prendano una o più di quelle PCollections eseguono un'operazione che si specifica, su ogni elemento in quella raccolta e produrre una o più raccolte p come output una trasformazione può eseguire quasi qualsiasi tipo di operazione di elaborazione tra cui eseguire elaborazioni matematiche su dati convertendo dati da un formato ad un altro raggruppamento dati di lettura e scrittura dei dati di filtraggio dei dati a soli elementi che si desidera o combinano elementi dati in valori dati unici. Le api dell'api e del lavandino forniscono funzioni per leggere i dati in entrata e in uscita dalle collezioni le fonti che agiscono sono la via della pipeline e i sprofondamenti sono gli endpoint del dataflow del cloud pipeline ha una serie di snodi e sorgenti integrate ma è anche possibile scrivere sorgenti e sprofondamenti anche per le fonti di costo e di dati. Lasciamo che i presenti analizzino diversi esempi di pipeline per avere un senso dell'elaborazione e delle capacità del cloud dataflow. In questo modulo di pipeline di trasformazione multipla letti da   bigquery viene filtrato in due raccolte in base al carattere iniziale del nome. Da notare che gli input in questi esempi potrebbero essere da una diversa souce dei dati e che questa pipeline doesn si spinga fino ad arrivare a perfetta e delineare l'output. In thi unito   esempio pipeline stiamo prendendo dati che sono stati filtrati in raccolta nel nostro precedente esempio di pipeline di trasformazione multipla e unendo insieme quei due datasets. Questo ci lascia con un unico dato impostato con nomi che iniziano con un e b in questo esempio di pipeline a più input farebbe anche joinss da diverse fonti di dati il lavoro di cloud dataflow è ingente dati da una o più fonti che è necessario in parallelo trasferire i dati e poi tutti i dati in caldo o sei servizi Google possono essere utilizzati sia come fonte che ascesa in un semplice ma reale esempio i dati cloud per la pipeline leggono i dati da una grande tavola grigia la sorgente lo elabora in vari modi nelle trasformazioni scrive il suo output su Google Cloud storage che è il nostro lavandino alcune delle trasformazioni in questo esempio sono la matematica operazioni e alcune sono operazioni ridotte è possibile costruire oleodotti davvero espressivi ogni passo della pipeline è elasticamente scalato non c'è bisogno di lanciare e gestire il proprio cluster invece questo servizio fornisce tutte le risorse on-demand ha un partizionamento di lavoro automatizzato e ottimizzabile è il lavoro in ritardo che riduce la necessità di preoccuparsi delle chiavi calde che sono situazioni con scatti proporzionalmente grandi del tuo input che vengono mappati sullo stesso cluster abbiamo discusso dei dati cloud e del cloud dataflow come soluzioni di servizio gestite per l'elaborazione del tuo big data. Questo flowchat   sintetizza ciò che differenzia uno dall'altro sia il cloud dataproc che il cloud dataflow possono eseguire operazioni di mapriducono la più grande differenza tra di loro è che il cloud dataproc funziona analogamente a come l'hadoop funzionerebbe nell'infrastruttura fisica si creerebbe ancora un cluster di server per eseguire lavori etl nel caso di dataflow cloud il processo è serverless you are quel codice java o python e far leva su Apache beam SDK per eseguire operazioni di etl e bash e streaming dati in una moda serverless