Contacta con nosotros

Temario del curso

Fundamentos de Producción con Tencent Hunyuan

  • Visión general de los escenarios de servicio de modelos de Tencent Hunyuan
  • Características de producción de modelos grandes y de tipo MoE
  • Cuellos de botella comunes en latencia, capacidad de procesamiento y costos
  • Definición de objetivos de nivel de servicio (SLO) para cargas de trabajo de inferencia

Arquitectura de Despliegue y Flujo de Servicio

  • Componentes centrales de una pila de inferencia en producción
  • Elección entre modelos de despliegue en contenedores, locales o en la nube
  • Conceptos básicos de carga de modelos, enrutamiento de solicitudes y asignación de GPU
  • Diseño enfocado en la fiabilidad y la simplicidad operativa

Optimización de Latencia en la Práctica

  • Uso de motores de inferencia optimizados como TensorRT cuando sea aplicable
  • Conceptos de KV-cache y ajuste práctico del caché
  • Reducción de la sobrecarga en el inicio, calentamiento y respuesta
  • Medición del tiempo hasta el primer token y la velocidad de generación de tokens

Capacidad de Procesamiento, Agrupamiento por Lotes y Eficiencia de la GPU

  • Estrategias de agrupamiento por lotes continuo y por solicitudes
  • Gestión de la concurrencia y comportamiento de las colas
  • Mejora del aprovechamiento de la GPU sin perjudicar la experiencia del usuario
  • Manejo de solicitudes de contexto largo y cargas de trabajo mixtas

Cuantización y Control de Costos

  • Por qué es crucial la cuantización para el servicio en producción
  • Compromisos prácticos de FP16, INT8 y otras opciones de precisión comunes
  • Equilibrio entre calidad del modelo, latencia y costos de infraestructura
  • Creación de una lista de verificación sencilla para la optimización de costos

Operaciones, Monitoreo y Revisión de Preparación

  • Disparadores de autoescalado para servicios de inferencia
  • Monitoreo de latencia, capacidad de procesamiento, uso del caché y salud de la GPU
  • Conceptos básicos de registro, alertas y respuesta a incidentes
  • Revisión de un despliegue de referencia y elaboración de un plan de mejora

Requerimientos

  • Comprensión básica del despliegue de modelos de lenguaje grandes y de los flujos de trabajo de inferencia
  • Experiencia con contenedores, infraestructura en la nube o local, y servicios basados en API
  • Conocimiento funcional de Python o tareas de ingeniería de sistemas

Público Objetivo

  • Ingenieros de ML que despliegan modelos de lenguaje grandes (LLM) en entornos de producción
  • Ingenieros de plataforma responsables de servicios de inferencia basados en GPU
  • Arquitectos de soluciones que diseñan plataformas de servicio de IA escalables
 14 Horas

Formación Corporativa a Medida

Soluciones de formación diseñadas exclusivamente para empresas.

  • Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
  • Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
  • Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Inversión

Precio por grupo privado (formación online) desde 3200 € + IVA*

Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales

Próximos cursos

Categorías Relacionadas