Temario del curso

Sección 1: Gestión de Datos en HDFS

  • Varios Formatos de Datos (JSON / Avro / Parquet)
  • Esquemas de Compresión
  • Mascaramiento de Datos
  • Laboratorios: Analizar diferentes formatos de datos; habilitar compresión

Sección 2: Pig Avanzado

  • Funciones Definidas por el Usuario
  • Introducción a Bibliotecas de Pig (ElephantBird / Data-Fu)
  • Carga de Datos Estructurados Complejos usando Pig
  • Ajuste de Pig
  • Laboratorios: scripting avanzado en Pig, analizar tipos de datos complejos

Sección 3: Hive Avanzado

  • Funciones Definidas por el Usuario
  • Tablas Comprimidas
  • Ajuste de Rendimiento en Hive
  • Laboratorios: crear tablas comprimidas, evaluar formatos y configuración de tablas

Sección 4: HBase Avanzado

  • Modelado de Esquemas Avanzado
  • Compresión
  • Ingesta de Datos en Bloque
  • Comparación entre Tablas Anchas y Altas
  • HBase y Pig
  • HBase y Hive
  • Ajuste de Rendimiento en HBase
  • Laboratorios: ajustar HBase; acceder a datos de HBase desde Pig & Hive; Usar Phoenix para el modelado de datos

Requerimientos

  • familiaridad con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • comodidad en un entorno Linux (capacidad para navegar por la línea de comandos de Linux, editar archivos usando vi/nano)
  • conocimientos prácticos de Hadoop.

Entorno del laboratorio

Cero Instalación: ¡No es necesario instalar software de Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.

Los estudiantes necesitarán lo siguiente

 21 Horas

Testimonios (5)

Próximos cursos

Categorías Relacionadas