Loading

Alison's New App is now available on iOS and Android! Download Now

Fundamentos do Hadoop

Entenda o básico do ecossistema Apache Hadoop com exercícios hands-on neste curso gratuito de treinamento de analytics.

Publisher: Proton Expert Systems and Solutions
Neste curto curso, você será apresentado aos componentes e ferramentas do Apache Hadoop. Aprenda a armazenar e processar grandes datasets que variam de tamanho a partir de gigabytes a petabytes com big data. A arquitetura HDFS (Hadoop distribuída file system), processamento de dados utilizando MapReduce, e importação e exportação de dados usando SQOOP será coberto. O curso também tem uma seção que lhe proporciona conhecimento prático e atividades hands-on.
Fundamentos do Hadoop
  • Duração

    1.5-3 Horas
  • Students

    268
  • Accreditation

    CPD

Share This Course And
Earn Money  

Become an Affiliate Member

Descrição

Modules

Resultado

Certificação

View course modules

Description

O Apache Hadoop é uma estrutura de software livre que facilita o uso de uma rede de dispositivos de computador para armazenar e processar grandes conjuntos de dados utilizando modelos de programação simples. Ele é projetado para resolver problemas que envolvem a análise de grandes quantidades de dados que variam de gigabytes a petabytes (um milhão de gigabytes). O framework é escrito em Java e é baseado no modelo de programação MapReduce do Google. Este curso começa com uma introdução ao Hadoop e grande utilitário de software de dados. Ele irá ensiná-los os recursos, tipos e fontes de informação em big data. As várias formas de analisar big data e seus benefícios também serão cobertas. Uma visão geral do Apache Hadoop, seu framework, histórico e o ecossistema Hadoop serão discutidos. Em seguida, na seção prática, você vai estudar como fazer o download, iniciar e conectar-se à máquina virtual Cloudera usando a plataforma Docker. Além disso, você estudará a arquitetura do sistema de arquivos distribuídos pelo Hadoop (HDFS). Os blocos de construção do Hadoop, seus componentes e fluxo de trabalho serão explicados. Além disso, alguns comandos de shell HDFS úteis usados para gerenciar arquivos nos clusters HDFS e como criar diretórios, mover, excluir e ler arquivos serão destacados.

Em seguida, você será apresentado ao MapReduce, estudando sua arquitetura e vendo como funciona. Você também aprenderá sobre o fluxo de dados da arquitetura MapReduce, YARN (Yet Another Resource Negotiator), e as diferenças entre os sistemas tradicionais de gerenciamento de banco de dados relacional (RDBMS) e MapReduce. Posteriormente, será ensinado a arquitetura de SQOOP e como importar e exportar dados utilizando a interface da linha de comandos SQOOP. A sintaxe para importação de dados de RDBMS para HDFS e de RDBMS para Hive através de importação de SQOOP e dados de exportação de HDFS para RDBMS e de HIVE para RDBMS por meio de exportação de SQOOP será explicada em duas seções de prática. Em seguida, você vai estudar Hive, sua arquitetura, componentes e tipos de dados. Os tipos de tabelas em Hive, o esquema Hive e o armazenamento de dados serão destacados. Além disso, será considerado o motor de consulta do Impala MPP SQL, seus recursos e as diferenças entre o Impala, o Hive, e o banco de dados tradicional RDBMS. Também, criar tabelas Hive externas, criar tabelas Hive gerenciadas e executar consultas HQL e Impala para análise dos dados será coberto na seção de prática.

Em seguida, você estudará Pig scripting em Hadoop. Você aprenderá os tipos de dados Pig, seus usos e como scripts Pig são executados com o motor. Como carregar dados em Pig assim como dados de filtragem também serão explicados. Criar diferentes scripts latinos do Pig, executar e utilizar diferentes funções para executar ETL (extrair, transformar e carregar) usando o Pig será delineado na seção de prática. Em seguida, você será apresentado ao sistema de agendamento do fluxo de trabalho Oozie para gerenciar os empregos do Hadoop. Os tipos de empregos em Oozie, sua arquitetura, recursos e ações serão revistos. A parametrização Oozie e como o controle de fluxo no fluxo de trabalho Oozie opera será analisado criticamente. Na seção prática, você aprenderá como criar diferentes ações em SQOOP, Hive e Pig. Este curso é para desenvolvedores de banco de dados e de casa de dados, grandes desenvolvedores de dados, analistas de dados e qualquer pessoal técnico interessado em aprender e explorar as diversas funcionalidades do Hadoop e suas ferramentas. O que te mantém esperando? Cadasque-se agora e comece a aprender hoje!

Iniciar Curso Agora

Careers