Programa del Curso
- Sección 1: Introducción a Hadoop
- Hadoop historia, conceptos
- Sistema ecológico
- Distribuciones
- Arquitectura de alto nivel
- Mitos hadoop
- Desafíos de hadoop
- Hardware software
- Labs: primer vistazo a Hadoop
- Sección 2: Descripción de HDFS
- Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack)
- Arquitectura (Namenode, Namenode secundario, nodo de datos)
- Integridad de los datos
- Futuro de HDFS: Namenode HA, Federación
- De laboratorio: interacción con HDFS
- Sección 3: Mapa Reducir Resumen
- Mapreduce conceptos
- Daemons: jobtracker / tasktracker
- Fases: driver, mapper, shuffle / sort, reductor
- Pensar en mapa reduce
- Futuro del mapreduce (hilo)
- Laboratorios: Ejecución de un programa de reducción de mapa
- Sección 4: Cerdo
- Cerdo vs java mapa reducir
- Lengua latina del cerdo
- Funciones definidas por el usuario
- Entender el flujo de trabajo de los cerdos
- Análisis de datos básicos con Pig
- Análisis de datos complejos con Pig
- Multi conjuntos de datos con cerdo
- Conceptos avanzados
- Laboratorio: escribir scripts de cerdo para analizar / transformar datos
- Sección 5: Colmena
- Conceptos de la colmena
- Arquitectura
- Soporte de SQL en Hive
- Tipos de datos
- Creación de tablas y consultas
- Gestión de datos de colmena
- Particiones y uniones
- Análisis de texto
- Labs (multiple): creación de tablas Hive y ejecución de consultas, uniones, uso de particiones, uso de funciones de análisis de texto
- Sección 6: Herramientas de BI para Hadoop
- Herramientas de BI y Hadoop
- Vista general de las herramientas de BI actuales
- Elegir la mejor herramienta para el trabajo
Requerimientos
- programming background with databases / SQL
- basic knowledge of Linux (be able to navigate Linux command line, editing files with vi / nano)
Entorno de laboratorio
Zero Install: ¡No hay necesidad de instalar el software hadoop en las máquinas de los estudiantes! Se proporcionará un grupo de trabajo Hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes ssh, para Windows Putty se recomienda)
- un navegador para acceder al clúster. Recomendamos el navegador Firefox con la extensión FoxyProxy instalada
Testimonios (4)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Curso - Data Analysis with Hive/HiveQL
Conocimiento profesional del mercado proporcionado por un experto
Bartlomiej Srednicki - GP Strategies Poland sp. z o.o.
Curso - Fintech: A Practical Introduction for Managers
Traducción Automática
Many hands-on sessions.
Jacek Pieczątka
Curso - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay