Loading

Alison's New App is now available on iOS and Android! Download Now

Module 1: I Big Data Managed Services nel Cloud

Study Reminders
Support
Text Version

Set your study reminders

We will email you at these times to remind you to study.
  • Monday

    -

    7am

    +

    Tuesday

    -

    7am

    +

    Wednesday

    -

    7am

    +

    Thursday

    -

    7am

    +

    Friday

    -

    7am

    +

    Saturday

    -

    7am

    +

    Sunday

    -

    7am

    +

Leva di Big Operations con Cloud Dataproc
In questo argomento più su come il nostro modo di cloud dataproc fornisce un modo veloce, facile e conveniente per eseguire Apache hadoop e Apache spark che h sono tecnologie di big data open source che supportano le grandi operazioni dei dati. Hadoop e Spark o tecnologie open-source che ofen formano la spina dorsale della grande elaborazione dei dati. Hadoop è una serie di strumenti e tecnologie che consentono a un cluster di computer di memorizzare e elaborare grandi volumi di dati. Lega intelligentemente i singoli computer in un cluster per distribuire la memoria nell'elaborazione di tali dati. Apache spark è il motore di analytics unificato per l'elaborazione di dati su larga scala e archiviazione sia ad alte prestazioni sia per i dati di batch e streaming. Cloud dataproc è un servizio gestito spark e hadoop che consente di usufruire degli strumenti dati open source per l'elaborazione batch, l'interrogazione, lo streaming e l'apprendimento automatico. L'automazione dataproc cloud ti aiuta a creare rapidamente quegli ammassi gestendoli facilmente e perché i cluster sono tipicamente gestiti in modo afamicale che ti trovi a breve ti salvi i soldi man mano che si sono disattivati quando non hai più bisogno di quel potere di elaborazione. Lasciate che i ragazzi prendano uno sguardo alle caratteristiche chiave del cloud cloud dataproc, il suo prezzo a 1 cent per CPU virtuale per cluster all'ora sopra ogni altra risorsa gcp che si utilizza in aggiunta al cluster cloud datapro include istanze presvuotabili che hanno prezzi di calcolo più bassi usando determinate cose solo quando ne avete bisogno e che quando si fa. I cluster Dataproc cloud sono rapidi per iniziare a, scalare e uno shutdown che ognuna di queste operazioni impiega 90 seconds o meno in media. I cluster possono essere creati e ridimensionati rapidamente con una varietà di dimensioni macchina virtuali, tipi, numero di nodi e opzioni di networking. È possibile utilizzare le librerie di strumenti spark e hadoop e la documentazione con Cloud dataproc. Il cloud dataproc fornisce frequenti aggiornamenti alle versioni native di spark, hadoop pig e un alveare così non c'è bisogno di imparare a strumenti o API È possibile spostare i tuoi progetti esistenti o il tuo etilenodotto su Google Cloud con resviluppo puoi facilmente interagire con cluster e lavori di spark o hadoop senza l'assistenza di amministratori o software speciali alla console gcp il cloud SDK o il cloud dataproc rest API. Quando si è rifatti con il cluster semplicemente disattivarlo così i soldi isn si sono spesi per un cluster inattivo. Il versioning di immagini consente di passare tra diverse versioni di Apache spark Apache hadoop e altri strumenti l'integrazione integrata con storage cloud e cloud big e assicura che i dati non verranno mai persi anche quando il vostro cluster è in calo. Questo insieme con la registrazione degli stackdriver e il monitoraggio degli stackdriver fornisce una piattaforma di dati completa e non solo un cluster spark o Hadoop ad esempio è possibile utilizzare Cloud dataproc per gli etl terabyte di dati di log di ruolo direttamente in bigquery per le proprie esigenze di reporting aziendale. Così come fa il cloud DATA PROC WORK ad accelerare un cluster quando serve ad esempio la risposta di una specifica query o eseguire un lavoro di eta ' specifico. L'architettura raffigurata qui fornisce intuito su come il cluster rimane separato eppure facilmente si integra con altre importanti funzionalità per esempio login tramite stackdriver e cloud big table invece di hbase. Questo contribuisce alla capacità di Cloud dataproc di eseguire una famiglia e quindi in modo efficiente e conveniente l'approccio consente agli utenti di utilizzare Hadoop, spark, alveare e suino quando ne hanno bisogno di nuovo come abbiamo accennato ci vogliono solo 90 seconds minuti in media dal momento in cui l'utente fa richiesta di risorse prima di presentare il loro primo lavoro. Ciò che rende possibile questo possibile è la separazione dello storage e del compimento che è un vero e proprio game-changer con l'approccio tradizionale tipico dei cluster on-premise le loro storie e le hard disk sono toccate ogni altro nodi e cluster se fosse presente l'isn t disponibile a causa della manutenzione non è lo storage. Dal momento che la memoria è collegata alle stesse note informatiche di quelle che fanno l'elaborazione c'è spesso un contendere per le risorse ad esempio le strozzature in ingresso e in uscita sul cluster cloud dataproc dall'altro lato le risorse di archiviazione che vengono separate da quelle compatte file di risorse sono memorizzate su Google Cloud storage o sul connettore di memoria di Google Cloud invece di hdfs è facile come modificare il prefisso in uno script da hdfs a GS o lo storage di Google considera anche il cloud dataproc in termini di hadoop e spark lavori e flussi di lavoro il modello di workflow consente gli utenti per configurare ed eseguire uno o più lavori è importante ricordare che oltre a rendere più semplice il processo per esempio consentendo all'utente di concentrarsi sui lavori e visualizzare i log su stackdriver possono sempre accedere ai componenti hadoop in applicazioni come il peso dei filati eseguendo su un cluster dataproc cloud se voluto. Per eseguire un cluster quando necessario per un determinato lavoro per rispondere ad una specifica query questa architettura mostra ciò che è possibile e come può intergrattare con i servizi gestiti in esecuzione al di fuori del cluster Ad esempio accedere al mio driver o Cloud big anziché alla tradizionale base tradizionale. Consente di osservare alcuni di questi casi di utilizzo a partire da come il proc dei dati cloud può aiutare con l'elaborazione dei log. In questo esempio un cliente elabora 50 gigabyte di dati di log di testo al giorno da diverse fonti per produrre i thats aggregati poi caricati in database da cui vengono poi raccolte le metriche per cose come la segnalazione giornaliera, la gestione, i dashboard e l'analisi. Fino ad ora HANNO usato un cluster dedicato al cluster di locali per memorizzare e elaborare i loro log con mapriducono in modo da quanto riguarda la soluzione. In primo luogo il cloud storage può fungere da zona di atterraggio per i dati di log a basso costo. Un cluster dataproc cloud può quindi essere creato meno di due minuti per elaborare questi dati con la mapriducono esistente una volta completato può essere rimosso immediatamente che non è più necessario. In termini di valore invece di correre tutto il tempo e incorrere i costi quando il suo cloud dataproc non utilizzato viene eseguito solo per elaborare quei log che salvano denaro e riducono la tua complessità complessiva. Il secondo caso di utilizzo guarda come il cloud dataproc può aiutare con l'analisi ad hoc. In questa organizzazione e anche allineare il nostro account con l'utilizzo della shell spark, tuttavia il loro reparto IT è preoccupato per l'utilizzo crescente e come scalare il loro cluster che è in esecuzione in modalità standalone come una soluzione cloud dataproc può creare cluster che scala per la velocità e mitigare ogni singolo punto di guasto. Dal momento che il cloud dataproc supporta spark, spark sequel e la scintilla di torta possono utilizzare il cloud di interfaccia web SDK tutta la scintilla nativa tramite SSH. In termini di valore sblocca rapidamente la potenza del Cloud per chiunque senza aggiungere complessità tecniche che eseguono elaborazioni complesse ora impiega secondi invece di minuti o ore su premesse. I casi di utilizzo in questo terzo esempio guarda come il cloud dataproc può aiutare con l'apprendimento automatico e in questo esempio un cliente utilizza la libreria di lavorazione per eseguire algoritmi di classificazione e ottimi datasets che si affidano a macchine cloud - based dove installare e personalizzare la scintilla perché la scintilla nelle librerie delle macchine può essere installata a qualsiasi cluster dataproc cloud il cliente può risparmiare tempo creando rapidamente cluster di cloud dataproc qualsiasi personalizzazione aggiuntiva può essere applicata facilmente all'intero cluster a quelle che vengono chiamate azioni di inizializzazione per mantenerla d'occhio sui flussi di lavoro con cui possono essere utilizzati una registrazione cloud integrata e le soluzioni di monitoraggio in termini di risorse di valore possono essere focalizzate sui dati con i dati cloud proc non spesi su cose come la creazione di cluster e la gestione anche integrazioni con altri nuovi prodotti GCP possono sbloccare nuove funzioni per i vostri cluster di spark.