Programa del Curso
Introducción
Scala Revisión de la programación en profundidad
- Sintaxis y estructura
- Control de caudal y funciones
Componentes internos de Spark
- Conjuntos de datos distribuidos resistentes (RDD)
- Script de Spark para graficar en clúster
Descripción general de Spark Streaming
- Arquitectura de streaming
- Intervalos en streaming
- Tolerancia a fallos
Preparación del entorno de desarrollo
- Instalación y configuración de Apache Spark
- Instalación y configuración del IDE Scala
- Instalación y configuración de JDK
Spark Streaming De principiante a avanzado
- Trabajar con RDD clave/valor
- Filtrado de RDD's
- Mejora de los scripts de Spark con expresiones regulares
- Uso compartido de datos en un clúster
- Trabajar con conjuntos de datos de red
- Implementación de algoritmos BFS
- Creación de scripts de controlador de Spark
- Seguimiento en tiempo real con scripts
- Escritura de aplicaciones continuas
- Regresión lineal de streaming
- Uso de la biblioteca de Spark Machine Learning
Spark y clústeres
- Agrupación de dependencias y scripts de Spark mediante la herramienta SBT
- Uso de EMR para ilustrar clústeres
- Optimización mediante la partición de RDD
- Uso de registros de Spark
Integración en Spark Streaming
- Integración de Apache Kafka y trabajo con temas de Kafka
- Integración de Apache Fume y trabajo con configuraciones de Flume basadas en pull/push
- Escritura de una clase receptora personalizada
- Integración Cassandra y exposición de datos como servicios en tiempo real
En producción
- Empaquetado de una aplicación y ejecución con Spark-Submit
- Solución de problemas, ajuste y depuración de clústeres y trabajos de Spark
Resumen y conclusión
Requerimientos
- Programming y experiencia en scripting
Audiencia
- Ingenieros de Software
Testimonios (6)
I liked that it was practical. Loved to apply the theoretical knowledge with practical examples.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafał - Nordea
Curso - Apache Spark MLlib
Traducción Automática
This is one of the best hands-on with exercises programming courses I have ever taken.
Laura Kahn
Curso - Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
La combinación de teoría y práctica con herramientas como databricks
Graciela Saud - Servicio de Impuestos Internos
Curso - Spark for Developers
Sufficient hands on, trainer is knowledgable
Chris Tan
Curso - A Practical Introduction to Stream Processing
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.