PySpark y Aprendizaje Automático

Esta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.

El curso avanza progresivamente desde la arquitectura de Spark y las operaciones con DataFrames hasta temas avanzados como la ingeniería de características, el entrenamiento de modelos de aprendizaje automático y la construcción de pipelines de ML de extremo a extremo utilizando Spark MLlib. Además, los participantes explorarán técnicas de optimización del rendimiento, estrategias de evaluación de modelos y prácticas empresariales para desplegar flujos de trabajo de aprendizaje automático a gran escala.

Mediante ejercicios prácticos y escenarios inspirados en la realidad, los participantes aprenderán a diseñar pipelines de datos eficientes, preparar conjuntos de datos para el aprendizaje automático y construir modelos de ML distribuidos capaces de manejar grandes volúmenes de datos, tal como se encuentran comúnmente en entornos empresariales.

Al finalizar la formación, los participantes comprenderán cómo integrar PySpark en plataformas de datos modernas y aplicar técnicas de aprendizaje automático escalables en entornos orientados a la producción.

Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Temario del curso

PySpark y Aprendizaje Automático

Módulo 1: Fundamentos de Big Data y Spark

Panorama general del ecosistema de Big Data y el papel de Spark en las plataformas de datos modernas.
Comprensión de la arquitectura de Spark: driver, executors, gestor del clúster, evaluación diferida, DAG y planificación de ejecución.
Diferencias entre las APIs RDD y DataFrame y cuándo utilizar cada enfoque.
Creación y configuración de SparkSession y comprensión de los fundamentos de la configuración de aplicaciones.

Módulo 2: DataFrames de PySpark

Lectura y escritura de datos desde fuentes y formatos empresariales (CSV, JSON, Parquet, Delta).
Trabajo con DataFrames de PySpark: transformaciones, acciones, expresiones de columnas, filtrado, uniones y agregaciones.
Implementación de operaciones avanzadas como funciones de ventana, manejo de marcas de tiempo y trabajo con datos anidados.
Aplicación de comprobaciones de calidad de datos y escritura de código PySpark reutilizable y mantenible.

Módulo 3: Procesamiento eficiente de grandes conjuntos de datos

Comprensión de los fundamentos del rendimiento: estrategias de particionamiento, comportamiento del shuffle, caché y persistencia.
Uso de técnicas de optimización, incluyendo uniones por difusión (broadcast joins) y análisis del plan de ejecución.
Procesamiento eficiente de grandes conjuntos de datos y mejores prácticas para flujos de trabajo de datos escalables.
Comprensión de la evolución del esquema y los formatos de almacenamiento modernos utilizados en entornos empresariales.

Módulo 4: Ingeniería de características a gran escala

Realización de ingeniería de características con Spark MLlib: manejo de valores nulos, codificación de variables categóricas y escalado de características.
Diseño de pasos de preprocesamiento reutilizables y preparación de conjuntos de datos para pipelines de aprendizaje automático.
Introducción a la selección de características y manejo de conjuntos de datos desbalanceados.

Módulo 5: Aprendizaje automático con Spark MLlib

Comprensión de la arquitectura de MLlib y el patrón Estimator/Transformer.
Entrenamiento de modelos de regresión y clasificación a gran escala (Regresión Lineal, Regresión Logística, Árboles de Decisión, Bosque Aleatorio).
Comparación de modelos e interpretación de resultados en flujos de trabajo de aprendizaje automático distribuidos.

Módulo 6: Pipelines de ML de extremo a extremo

Construcción de pipelines de aprendizaje automático de extremo a extremo que combinen preprocesamiento, ingeniería de características y modelado.
Aplicación de estrategias de división de datos en entrenamiento, validación y prueba.
Realización de validación cruzada y ajuste de hiperparámetros mediante búsqueda en cuadrícula (grid search) y búsqueda aleatoria.
Estructuración de experimentos de aprendizaje automático reproducibles.

Módulo 7: Evaluación de modelos y toma de decisiones prácticas en ML

Aplicación de métricas de evaluación adecuadas para problemas de regresión y clasificación.
Identificación de sobreajuste y subajuste, y toma de decisiones prácticas sobre la selección de modelos.
Interpretación de la importancia de las características y comprensión del comportamiento del modelo.

Módulo 8: Prácticas de producción y entorno empresarial

Persistencia y carga de modelos en Spark.
Implementación de flujos de trabajo de inferencia por lotes en grandes conjuntos de datos.
Comprensión del ciclo de vida del aprendizaje automático en entornos empresariales.
Introducción a conceptos de versionado, seguimiento de experimentos y estrategias básicas de prueba.

Resultado práctico

Capacidad para trabajar de forma autónoma con PySpark.
Capacidad para procesar grandes conjuntos de datos de manera eficiente.
Capacidad para realizar ingeniería de características a gran escala.
Capacidad para construir pipelines de aprendizaje automático escalables.

Requerimientos

Se requiere que los participantes cuenten con los siguientes conocimientos previos:

Conocimientos básicos de programación en Python, incluido el trabajo con funciones, estructuras de datos y librerías.
Comprensión fundamental de conceptos de análisis de datos, como conjuntos de datos, transformaciones y agregaciones.
Conocimientos básicos de SQL y conceptos de datos relacionales.
Comprensión introductoria de conceptos de aprendizaje automático, como conjuntos de datos de entrenamiento, características y métricas de evaluación.
Se recomienda familiaridad con entornos de línea de comandos y prácticas básicas de desarrollo de software.

La experiencia con Pandas, NumPy o librerías similares de procesamiento de datos es útil, aunque no obligatoria.

21 Horas

Formación Corporativa a Medida

Soluciones de formación diseñadas exclusivamente para empresas.

Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.

Inversión

Precio por grupo privado (formación online) desde 4800 € + IVA*

Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales

(*El precio final puede variar según la especialización técnica del curso, el nivel de personalización, la modalidad y el número de participantes)

¿Necesita ayuda para elegir el curso adecuado?

Testimonios (1)

Me gustó que fuera práctico. Amé aplicar el conocimiento teórico con ejemplos prácticos.

PySpark y Aprendizaje Automático

Temario del curso

Requerimientos

Formación Corporativa a Medida

Testimonios (1)

Aurelia-Adriana - Allianz Services Romania

Curso - Python and Spark for Big Data (PySpark)

Próximos cursos

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

Categorías Relacionadas

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

PySpark y Aprendizaje Automático

Temario del curso

Requerimientos

Formación Corporativa a Medida

Testimonios (1)

Aurelia-Adriana - Allianz Services Romania

Curso - Python and Spark for Big Data (PySpark)

Próximos cursos

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

PySpark y Aprendizaje Automático

Cursos Relacionados

Python y Spark para Big Data (PySpark)

Stratio: Módulos Rocket e Intelligence con PySpark

Categorías Relacionadas

PySpark

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites