Programa del Curso

1: HDFS (17%)

  • Describir la función de los demonios de HDFS
  • Describir el funcionamiento normal de un clúster Apache Hadoop, tanto en almacenamiento de datos como en procesamiento.
  • Identificar las características actuales de los sistemas de cómputo que motivan un sistema como Apache Hadoop.
  • Clasificar los objetivos principales del diseño de HDFS
  • Dada una situación, identificar el caso de uso apropiado para la federación de HDFS
  • Identificar componentes y demonios de un clúster HDFS HA-Quorum
  • Analizar el papel de la seguridad de HDFS (Kerberos)
  • Determinar la mejor opción de serialización de datos para una situación dada
  • Describir las rutas de lectura y escritura de archivos
  • Identificar los comandos para manipular archivos en el Shell del Sistema de Archivos Hadoop

2: YARN y MapReduce versión 2 (MRv2) (17%)

  • Comprender cómo la actualización de un clúster de Hadoop 1 a Hadoop 2 afecta las configuraciones del clúster
  • Entender cómo desplegar MapReduce v2 (MRv2 / YARN), incluyendo todos los demonios YARN
  • Comprender la estrategia de diseño básica para MapReduce v2 (MRv2)
  • Determinar cómo YARN maneja las asignaciones de recursos
  • Identificar el flujo de trabajo de un trabajo de MapReduce ejecutándose en YARN
  • Determinar cuáles archivos debe cambiar y cómo para migrar un clúster desde MapReduce versión 1 (MRv1) a MapReduce versión 2 (MRv2) ejecutándose sobre YARN.

3: Planificación del Clúster Hadoop (16%)

  • Puntos principales a considerar al elegir el hardware y los sistemas operativos para alojar un clúster Apache Hadoop.
  • Analizar las opciones de selección del sistema operativo
  • Comprender la sintonización del kernel y el intercambio de disco
  • Dada una situación y un patrón de carga de trabajo, identificar una configuración de hardware adecuada para la situación
  • Dada una situación, determinar los componentes del ecosistema que el clúster necesita ejecutar para cumplir con el SLA
  • Tamaño del clúster: dada una situación y frecuencia de ejecución, identificar las especificaciones para la carga de trabajo, incluyendo CPU, memoria, almacenamiento, E/S de disco
  • Tamaño y Configuración del Disco, incluyendo JBOD versus RAID, SANs, virtualización y los requisitos de tamaño de disco en un clúster
  • Topologías de Red: comprender el uso de la red en Hadoop (tanto para HDFS como para MapReduce) y proponer o identificar los componentes clave del diseño de red para una situación dada

4: Instalación y Administración del Clúster Hadoop (25%)

  • Dada una situación, identificar cómo el clúster manejará las fallas de disco y máquina
  • Analizar la configuración de registro y el formato del archivo de configuración de registro
  • Comprender los fundamentos de las métricas y la supervisión de la salud del clúster en Hadoop
  • Identificar la función y propósito de las herramientas disponibles para la supervisión del clúster
  • Ser capaz de instalar todos los componentes del ecosistema en CDH 5, incluyendo (pero no limitado a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive y Pig
  • Identificar la función y propósito de las herramientas disponibles para administrar el sistema de archivos Apache Hadoop

5: Recursos Management (10%)

  • Comprender los objetivos generales de diseño de cada uno de los programadores de Hadoop
  • Dada una situación, determinar cómo el Programador FIFO asigna recursos del clúster
  • Dada una situación, determinar cómo el Programador Justo asigna recursos del clúster bajo YARN
  • Dada una situación, determinar cómo el Programador de Capacidad asigna recursos del clúster

6: Supervisión y Registro (15%)

  • Comprender las funciones y características de la capacidad de recolección de métricas en Hadoop
  • Analizar las interfaces web del NameNode y JobTracker
  • Comprender cómo supervisar los demonios del clúster
  • Identificar y supervisar el uso de CPU en los nodos maestros
  • Describir cómo supervisar el intercambio y la asignación de memoria en todos los nodos
  • Identificar cómo ver y administrar los archivos de registro de Hadoop
  • Interpretar un archivo de registro

Requerimientos

  • Habilidades básicas de administración Linux
  • Conocimientos básicos de programación
 35 Horas

Testimonios (3)

Próximos cursos

Categorías Relacionadas