Temario del curso
Introducción, Objetivos y Estrategia de Migración
- Metas del curso, alineación del perfil de los participantes y criterios de éxito
- Enfoques de migración a alto nivel y consideraciones de riesgo
- Configuración de espacios de trabajo, repositorios y conjuntos de datos de laboratorio
Día 1 — Fundamentos y Arquitectura de Migración
- Conceptos Lakehouse, visión general de Delta Lake y arquitectura de Databricks
- Diferencias entre SMP y MPP y sus implicaciones para la migración
- Diseño Medallion (Bronce→Plata→Oro) y visión general de Unity Catalog
Laboratorio del Día 1 — Traducción de un Procedimiento Almacenado
- Migración práctica de un procedimiento almacenado de ejemplo a un cuaderno
- Mapeo de tablas temporales y cursores a transformaciones DataFrame
- Validación y comparación con la salida original
Día 2 — Delta Lake Avanzado y Carga Incremental
- Transacciones ACID, registros de commit, versionamiento y viaje en el tiempo
- Auto Loader, patrones MERGE INTO, upserts y evolución del esquema
- OPTIMIZE, VACUUM, Z-ORDER, particionamiento y ajuste de almacenamiento
Laboratorio del Día 2 — Ingesta Incremental y Optimización
- Implementación de ingestión Auto Loader y flujos de trabajo MERGE
- Aplicación de OPTIMIZE, Z-ORDER y VACUUM; validación de resultados
- Medición de mejoras en el rendimiento de lectura/escritura
Día 3 — SQL en Databricks, Rendimiento y Depuración
- Características analíticas de SQL: funciones de ventana, funciones de orden superior, manejo de JSON/arreglos
- Lectura de la interfaz de usuario de Spark, DAGs, mezclas, etapas, tareas y diagnóstico de cuellos de botella
- Patrones de optimización de consultas: uniones de transmisión, sugerencias, caché y reducción de derrame
Laboratorio del Día 3 — Refactorización SQL y Optimización de Rendimiento
- Refactorizar un proceso SQL pesado a Spark SQL optimizado
- Usar trazas de la interfaz de usuario de Spark para identificar y solucionar problemas de sesgo y mezcla
- Benchmarking antes/después y documentación de pasos de optimización
Día 4 — PySpark Táctico: Reemplazo de Lógica Procedural
- Modelo de ejecución Spark: conductor, ejecutores, evaluación perezosa y estrategias de particionamiento
- Transformar bucles y cursores en operaciones vectorizadas DataFrame
- Modularización, UDFs/pandas UDFs, widgets y bibliotecas reutilizables
Laboratorio del Día 4 — Refactorización de Scripts Procedurales
- Refactorizar un script ETL procedural a cuadernos PySpark modulares
- Introducir parametrización, pruebas estilo unidad y funciones reutilizables
- Revisión de código y aplicación de lista de verificación de mejores prácticas
Día 5 — Orquestación, Pipeline de Extremo a Extremo y Mejores Prácticas
- Databricks Workflows: diseño de trabajos, dependencias de tareas, desencadenadores y manejo de errores
- Diseño de pipelines Medallion incrementales con reglas de calidad y validación de esquemas
- Integración con Git (GitHub/Azure DevOps), CI, y estrategias de prueba para lógica PySpark
Laboratorio del Día 5 — Construir un Pipeline Completo de Extremo a Extremo
- Ensamblar pipeline Bronce→Plata→Oro orquestado con Workflows
- Implementar registro, auditoría, reintentos y validaciones automatizadas
- Ejecutar pipeline completo, validar salidas y preparar notas de implementación
Operacionalización, Gobernanza y Preparación para Producción
- Prácticas recomendadas de gobernanza Unity Catalog, linaje y controles de acceso
- Costos, dimensionamiento del clúster, escalado automático y patrones de concurrencia de trabajos
- Listas de verificación de implementación, estrategias de reversión y creación de libros de procedimientos
Revisión Final, Transferencia de Conocimiento y Próximos Pasos
- Presentaciones de los participantes del trabajo de migración y lecciones aprendidas
- Análisis de brechas, actividades recomendadas para seguimiento y entrega de materiales de capacitación
- Referencias, caminos adicionales de aprendizaje y opciones de soporte
Requerimientos
- Comprensión de conceptos de ingeniería de datos
- Experiencia con SQL y procedimientos almacenados (Synapse / SQL Server)
- Familiaridad con conceptos de orquestación ETL (ADF u otros similares)
Audiencia
- Gerentes tecnológicos con experiencia en ingeniería de datos
- Ingenieros de datos que transicionan lógica procedural OLAP a patrones Lakehouse
- Ingenieros de plataforma responsables de la adopción de Databricks
Formación Corporativa a Medida
Soluciones de formación diseñadas exclusivamente para empresas.
- Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
- Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
- Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Precio por grupo privado (formación online) desde 8000 € + IVA*
Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales
Testimonios (1)
Todos los temas que abarca, aunque muchos fueron muy rápidos, nos da una idea de lo que necesitaremos ahondar. Además me gustó que pudimos hacer practicas, aunque insisto, creo que el curso amerita mas.