Loading

Alison's New App is now available on iOS and Android! Download Now

Fondamentali di Hadoop

Comprendere le basi dell'ecosistema Apache Hadoop con esercizi hands-on in questo corso di formazione gratuito di analytics.

Publisher: Proton Expert Systems and Solutions
In questo breve corso verrà introdotto ai componenti e agli strumenti di Apache Hadoop. Imparare a memorizzare e elaborare grandi datasets che spaziano dalle dimensioni dai gigabyte ai petabyte con i big data. Verrà coperto l'architettura HDFS (Hadoop distributed file system), l'elaborazione dei dati che utilizza MapReduce e l'importazione e l'esportazione dei dati tramite SQOOP. Il corso ha anche una sezione che vi fornisce conoscenze pratiche e attività hands-on.
Fondamentali di Hadoop
  • Durata

    1.5-3 Oras
  • Students

    264
  • Accreditation

    CPD

Share This Course And
Earn Money  

Become an Affiliate Member

Descrizione

Modules

Risultato

Certificazione

View course modules

Description

Apache Hadoop è un framework software open-source che facilita l'utilizzo di una rete di dispositivi informatici per memorizzare e elaborare serie di dati di grandi dimensioni utilizzando semplici modelli di programmazione. È progettato per risolvere problemi che implicano l'analisi di grandi quantità di dati che spaziano dai gigabyte ai petabyte (un milione di gigabyte). Il framework è scritto in Java e si basa sul modello di programmazione MapReduce di Google. Questo corso inizia con un'introduzione all'utility software Hadoop e big data. Vi insegnerà le caratteristiche, i tipi e le fonti di informazione in big data. Verranno trattati anche i vari modi di analizzare i big data e i relativi benefici. Verrà discussa una panoramica di Apache Hadoop, il suo framework, la storia e l'ecosistema Hadoop. Poi, nella sezione pratica, si studierà come scaricare, avviare e collegarsi alla macchina virtuale Cloudera utilizzando la piattaforma Docker. Inoltre, si studierà l'architettura del file system distribuito Hadoop (HDFS). Verranno spiegati i blocchi di costruzione di Hadoop, i suoi componenti e il flusso di lavoro. Inoltre, verranno evidenziati alcuni utili comandi shell HDFS utilizzati per gestire i file sui cluster HDFS e come creare directory, spostare, cancellare e leggere i file.

Prossimo, sarai introdotto a MapReduce, studiando la sua architettura e vedendo come funziona. Imparerai anche il flusso di dati di MapReduce, l'architettura FILATI (Yet Another Resource negoziator) e le differenze tra i sistemi di gestione dei database relazionali tradizionali (RDBMS) e MapReduce. Successivamente verrà insegnato l'architettura di SQOOP e come importare ed esportare i dati utilizzando l'interfaccia di riga comandi SQOOP. La sintassi per l'importazione dei dati da RDBMS a HDFS e da RDBMS ad Hive tramite SQOOP import ed esportazione dei dati da HDFS a RDBMS e da HIVE a RDBMS tramite l'esportazione SQOOP verrà spiegata in due sezioni pratiche. Poi, studierai Hive, la sua architettura, i componenti e i tipi di dati. Verranno evidenziati i tipi di tabelle in Hive, lo schema Hive e lo storage dei dati. Inoltre verrà considerato il motore di interrogazione di Impala MPP SQL, le sue caratteristiche e le differenze tra Impala, Hive e il database RDBMS tradizionale. Inoltre, creare tabelle Hive esterne, creare tabelle Hive gestite e eseguire query HQL e Impala per l'analisi dei dati saranno trattati nella sezione pratica.

Avanti, studierà Pig scripting in Hadoop. Imparerai i tipi di dati Pig, i loro utilizzi e come gli script di Pig vengono eseguiti con il motore. Come caricare i dati in Pig così come verranno spiegati anche i dati di filtraggio. Creare diversi script di Pig Latin, eseguendo e utilizzando funzioni diverse per eseguire ETL (estratto, trasformazione e carico) utilizzando Pig verrà delineato nella sezione pratica. Poi, verrà introdotto al sistema di pianificazione del flusso di lavoro Oozie per gestire i lavori Hadoop. I tipi di lavori in Oozie, la sua architettura, le funzioni e le azioni saranno riviste. La parametrizzazione di oozie e come funziona il controllo del flusso nel flusso di lavoro Oozie saranno analizzati criticamente. Nella sezione pratica, imparerai come creare diverse azioni in SQOOP, Hive e Pig. Questo corso è per gli sviluppatori di database e data house, gli sviluppatori di big data, gli analisti di dati e qualsiasi personale tecnico che sia interessato ad imparare ed esplorare le varie caratteristiche di Hadoop e dei suoi strumenti. Cosa ti tiene ad aspettare? Iscriviti ora e inizia a imparare oggi!

Inizio Corso Ora

Careers