Temario del curso
PySpark y Aprendizaje Automático
Módulo 1: Fundamentos de Big Data y Spark
- Panorama general del ecosistema de Big Data y el papel de Spark en las plataformas de datos modernas.
- Comprensión de la arquitectura de Spark: driver, executors, gestor del clúster, evaluación diferida, DAG y planificación de ejecución.
- Diferencias entre las APIs RDD y DataFrame y cuándo utilizar cada enfoque.
- Creación y configuración de SparkSession y comprensión de los fundamentos de la configuración de aplicaciones.
Módulo 2: DataFrames de PySpark
- Lectura y escritura de datos desde fuentes y formatos empresariales (CSV, JSON, Parquet, Delta).
- Trabajo con DataFrames de PySpark: transformaciones, acciones, expresiones de columnas, filtrado, uniones y agregaciones.
- Implementación de operaciones avanzadas como funciones de ventana, manejo de marcas de tiempo y trabajo con datos anidados.
- Aplicación de comprobaciones de calidad de datos y escritura de código PySpark reutilizable y mantenible.
Módulo 3: Procesamiento eficiente de grandes conjuntos de datos
- Comprensión de los fundamentos del rendimiento: estrategias de particionamiento, comportamiento del shuffle, caché y persistencia.
- Uso de técnicas de optimización, incluyendo uniones por difusión (broadcast joins) y análisis del plan de ejecución.
- Procesamiento eficiente de grandes conjuntos de datos y mejores prácticas para flujos de trabajo de datos escalables.
- Comprensión de la evolución del esquema y los formatos de almacenamiento modernos utilizados en entornos empresariales.
Módulo 4: Ingeniería de características a gran escala
- Realización de ingeniería de características con Spark MLlib: manejo de valores nulos, codificación de variables categóricas y escalado de características.
- Diseño de pasos de preprocesamiento reutilizables y preparación de conjuntos de datos para pipelines de aprendizaje automático.
- Introducción a la selección de características y manejo de conjuntos de datos desbalanceados.
Módulo 5: Aprendizaje automático con Spark MLlib
- Comprensión de la arquitectura de MLlib y el patrón Estimator/Transformer.
- Entrenamiento de modelos de regresión y clasificación a gran escala (Regresión Lineal, Regresión Logística, Árboles de Decisión, Bosque Aleatorio).
- Comparación de modelos e interpretación de resultados en flujos de trabajo de aprendizaje automático distribuidos.
Módulo 6: Pipelines de ML de extremo a extremo
- Construcción de pipelines de aprendizaje automático de extremo a extremo que combinen preprocesamiento, ingeniería de características y modelado.
- Aplicación de estrategias de división de datos en entrenamiento, validación y prueba.
- Realización de validación cruzada y ajuste de hiperparámetros mediante búsqueda en cuadrícula (grid search) y búsqueda aleatoria.
- Estructuración de experimentos de aprendizaje automático reproducibles.
Módulo 7: Evaluación de modelos y toma de decisiones prácticas en ML
- Aplicación de métricas de evaluación adecuadas para problemas de regresión y clasificación.
- Identificación de sobreajuste y subajuste, y toma de decisiones prácticas sobre la selección de modelos.
- Interpretación de la importancia de las características y comprensión del comportamiento del modelo.
Módulo 8: Prácticas de producción y entorno empresarial
- Persistencia y carga de modelos en Spark.
- Implementación de flujos de trabajo de inferencia por lotes en grandes conjuntos de datos.
- Comprensión del ciclo de vida del aprendizaje automático en entornos empresariales.
- Introducción a conceptos de versionado, seguimiento de experimentos y estrategias básicas de prueba.
Resultado práctico
- Capacidad para trabajar de forma autónoma con PySpark.
- Capacidad para procesar grandes conjuntos de datos de manera eficiente.
- Capacidad para realizar ingeniería de características a gran escala.
- Capacidad para construir pipelines de aprendizaje automático escalables.
Requerimientos
Se requiere que los participantes cuenten con los siguientes conocimientos previos:
Conocimientos básicos de programación en Python, incluido el trabajo con funciones, estructuras de datos y librerías.
Comprensión fundamental de conceptos de análisis de datos, como conjuntos de datos, transformaciones y agregaciones.
Conocimientos básicos de SQL y conceptos de datos relacionales.
Comprensión introductoria de conceptos de aprendizaje automático, como conjuntos de datos de entrenamiento, características y métricas de evaluación.
Se recomienda familiaridad con entornos de línea de comandos y prácticas básicas de desarrollo de software.
La experiencia con Pandas, NumPy o librerías similares de procesamiento de datos es útil, aunque no obligatoria.
Formación Corporativa a Medida
Soluciones de formación diseñadas exclusivamente para empresas.
- Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
- Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
- Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Precio por grupo privado (formación online) desde 4800 € + IVA*
Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales
Testimonios (1)
Me gustó que fuera práctico. Amé aplicar el conocimiento teórico con ejemplos prácticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática