Apache Hadoop è un framework software open source che facilita l'uso di una rete di dispositivi informatici per archiviare ed elaborare set di dati di grandi dimensioni utilizzando semplici modelli di programmazione. È progettato per risolvere problemi che comportano l'analisi di grandi quantità di dati che vanno dai gigabyte ai petabyte (un milione di gigabyte). Il framework è scritto in Java e si basa sul modello di programmazione MapReduce di Google. Questo corso inizia con un'introduzione a Hadoop e all'utilità software per i big data. Ti insegnerà le caratteristiche, i tipi e le fonti di informazione nei big data. Saranno inoltre trattati i vari modi di analizzare i big data e i loro vantaggi. Verrà discussa una panoramica di Apache Hadoop, del suo framework, della sua storia e dell'ecosistema Hadoop. Quindi, nella sezione pratica, studierai come scaricare, avviare e connetterti alla macchina virtuale Cloudera utilizzando la piattaforma Docker. Inoltre, studierai l'architettura del file system distribuito Hadoop (HDFS). Verranno spiegati gli elementi costitutivi di Hadoop, i suoi componenti e il flusso di lavoro. Inoltre, verranno evidenziati alcuni utili comandi della shell HDFS utilizzati per gestire i file sui cluster HDFS e come creare directory, spostare, eliminare e
leggere i file.
Successivamente, verrai introdotto a MapReduce, studiandone l'architettura e vedendo come funziona. Imparerai anche a conoscere il flusso di dati di MapReduce, l'architettura YARN (Yet Another Resource Negotiator) e le differenze tra i tradizionali sistemi di gestione di database relazionali (RDBMS) e MapReduce. Successivamente, ti verrà insegnata l'architettura di SQOOP e come importare ed esportare dati utilizzando l'interfaccia a riga di comando SQOOP. La sintassi per l'importazione di dati da RDBMS a HDFS e da RDBMS a Hive tramite SQOOP, l'importazione e l'esportazione di dati da HDFS a RDBMS e da HIVE a RDBMS tramite l'esportazione SQOOP verrà spiegata in due sezioni pratiche. Quindi, studierai Hive, la sua architettura, i componenti e i tipi di dati. Verranno evidenziati i tipi di tabelle in Hive, lo schema Hive e l'archiviazione dei dati. Inoltre, verranno presi in considerazione il motore di query SQL Impala MPP, le sue caratteristiche e le differenze tra Impala, Hive e il tradizionale database RDBMS. Inoltre, la creazione di tabelle Hive esterne, la creazione di tabelle Hive gestite e l'esecuzione di query HQL e Impala per
l'analisi dei dati saranno trattate nella sezione pratica.
Successivamente, studierai lo scripting Pig in Hadoop. Imparerai i tipi di dati Pig, i loro usi e come vengono eseguiti gli script Pig con il motore. Verrà inoltre spiegato come caricare i dati in Pig e come filtrare i dati. La creazione di diversi script Pig Latin, l'esecuzione e l'utilizzo di diverse funzioni per eseguire ETL (estrazione, trasformazione e caricamento) utilizzando Pig saranno descritte nella sezione pratica. Quindi, verrà introdotto il sistema di pianificazione del flusso di lavoro Oozie per gestire i lavori Hadoop. Verranno esaminati i tipi di lavori in Oozie, la sua architettura, le caratteristiche e le azioni. La parametrizzazione di Oozie e il funzionamento del controllo del flusso nel flusso di lavoro di Oozie verranno analizzati criticamente. Nella sezione pratica, imparerai come creare diverse azioni in SQOOP, Hive e Pig. Questo corso è rivolto a sviluppatori di database e data house, sviluppatori di big data, analisti di dati e qualsiasi personale tecnico interessato a conoscere ed esplorare le varie funzionalità di Hadoop e dei suoi strumenti. Cosa ti fa aspettare? Iscriviti ora e inizia a imparare oggi
!
In This Free Course, You Will Learn How To
View All Learning Outcomes View Less All Alison courses are free to enrol study and complete. To successfully complete this course and become an Alison Graduate, you need to achieve 80% or higher in each course assessment. Once you have completed this course, you have the option to acquire an official , which is a great way to share your achievement with the world.
Your Alison is:
- Ideal for sharing with potential employers
- Great for your CV, professional social media profiles and job applications.
- An indication of your commitment to continuously learn, upskill & achieve high results.
- An incentive for you to continue empowering yourself through lifelong learning.
Alison offers 3 types of s for completed courses:
- Digital : a downloadable in PDF format immediately available to you when you complete your purchase.
- : a physical version of your officially branded and security-marked
- Framed : a physical version of your officially branded and security marked in a stylish frame.
All s are available to purchase through the Alison Shop. For more information on purchasing Alison , please visit our FAQs. If you decide not to purchase your Alison , you can still demonstrate your achievement by sharing your Learner Record or Learner Achievement Verification, both of which are accessible from your Account Settings. For more details on our pricing, please visit our Pricing Page