Programa del Curso

Introducción

Descripción general de Spark Streaming Características y arquitectura

  • Fuentes de datos admitidas
  • API principales

Preparación del entorno

  • Dependencias
  • Spark y contexto de streaming
  • Conexión con Kafka

Procesamiento de mensajes

  • Análisis de mensajes entrantes como JSON
  • Procesos ETL
  • Inicio del contexto de streaming

Realización de una ventana Stream Processing

  • Intervalo de deslizamiento
  • Configuración de entrega de puntos de control
  • Lanzamiento del entorno

Creación de prototipos del código de procesamiento

  • Conexión con un tema de Kafka
  • Recuperación de JSON de la fuente de datos mediante Paw
  • Variaciones y procesamiento adicional

Transmisión del código

  • Variables de control de trabajo
  • Definición de valores para que coincidan
  • Funciones y condiciones

Adquisición de salida de flujo

  • Contadores
  • Salida de Kafka (coincidente y no coincidente)

Solución de problemas

Resumen y conclusión

Requerimientos

  • Experiencia con Python y Apache Kafka
  • Familiaridad con las plataformas de procesamiento de flujos

Audiencia

  • Ingenieros de datos
  • Científicos de datos
  • Programadores
 7 horas

Testimonios (5)

Categorías Relacionadas