Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Fundamentos de Producción con Tencent Hunyuan
- Visión general de los escenarios de servicio de modelos de Tencent Hunyuan
- Características de producción de modelos grandes y de tipo MoE
- Cuellos de botella comunes en latencia, capacidad de procesamiento y costos
- Definición de objetivos de nivel de servicio (SLO) para cargas de trabajo de inferencia
Arquitectura de Despliegue y Flujo de Servicio
- Componentes centrales de una pila de inferencia en producción
- Elección entre modelos de despliegue en contenedores, locales o en la nube
- Conceptos básicos de carga de modelos, enrutamiento de solicitudes y asignación de GPU
- Diseño enfocado en la fiabilidad y la simplicidad operativa
Optimización de Latencia en la Práctica
- Uso de motores de inferencia optimizados como TensorRT cuando sea aplicable
- Conceptos de KV-cache y ajuste práctico del caché
- Reducción de la sobrecarga en el inicio, calentamiento y respuesta
- Medición del tiempo hasta el primer token y la velocidad de generación de tokens
Capacidad de Procesamiento, Agrupamiento por Lotes y Eficiencia de la GPU
- Estrategias de agrupamiento por lotes continuo y por solicitudes
- Gestión de la concurrencia y comportamiento de las colas
- Mejora del aprovechamiento de la GPU sin perjudicar la experiencia del usuario
- Manejo de solicitudes de contexto largo y cargas de trabajo mixtas
Cuantización y Control de Costos
- Por qué es crucial la cuantización para el servicio en producción
- Compromisos prácticos de FP16, INT8 y otras opciones de precisión comunes
- Equilibrio entre calidad del modelo, latencia y costos de infraestructura
- Creación de una lista de verificación sencilla para la optimización de costos
Operaciones, Monitoreo y Revisión de Preparación
- Disparadores de autoescalado para servicios de inferencia
- Monitoreo de latencia, capacidad de procesamiento, uso del caché y salud de la GPU
- Conceptos básicos de registro, alertas y respuesta a incidentes
- Revisión de un despliegue de referencia y elaboración de un plan de mejora
Requerimientos
- Comprensión básica del despliegue de modelos de lenguaje grandes y de los flujos de trabajo de inferencia
- Experiencia con contenedores, infraestructura en la nube o local, y servicios basados en API
- Conocimiento funcional de Python o tareas de ingeniería de sistemas
Público Objetivo
- Ingenieros de ML que despliegan modelos de lenguaje grandes (LLM) en entornos de producción
- Ingenieros de plataforma responsables de servicios de inferencia basados en GPU
- Arquitectos de soluciones que diseñan plataformas de servicio de IA escalables
14 Horas
Formación Corporativa a Medida
Soluciones de formación diseñadas exclusivamente para empresas.
- Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
- Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
- Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Precio por grupo privado (formación online) desde 3200 € + IVA*
Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales