Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos es un curso práctico sobre el servicio confiable de modelos de Tencent Hunyuan a gran escala.

Esta formación presencial o en línea, impartida por instructores, está dirigida a ingenieros y arquitectos de nivel intermedio que deseen utilizar Tencent Hunyuan para desplegar modelos grandes y de tipo MoE con menor latencia, mejor aprovechamiento de la GPU y costos operativos controlados.

Al finalizar esta formación, los participantes serán capaces de:

explicar los principales desafíos de producción asociados al servicio de modelos de Tencent Hunyuan.
aplicar técnicas prácticas de optimización de inferencia como TensorRT, ajuste de KV-cache, cuantización y agrupamiento por lotes (batching).
diseñar estrategias de despliegue escalables con autoescalado, monitoreo y planificación de capacidad.
mejorar los compromisos entre latencia y costos en cargas de trabajo reales de producción.

Formato del Curso

Clases magistrales interactivas y debates.
Amplia variedad de ejercicios y prácticas.
Implementación práctica en un entorno de laboratorio en vivo.

Opciones de Personalización del Curso

Para solicitar una formación personalizada para este curso, por favor contáctenos para coordinar.

Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.

Temario del curso

Fundamentos de Producción con Tencent Hunyuan

Visión general de los escenarios de servicio de modelos de Tencent Hunyuan
Características de producción de modelos grandes y de tipo MoE
Cuellos de botella comunes en latencia, capacidad de procesamiento y costos
Definición de objetivos de nivel de servicio (SLO) para cargas de trabajo de inferencia

Arquitectura de Despliegue y Flujo de Servicio

Componentes centrales de una pila de inferencia en producción
Elección entre modelos de despliegue en contenedores, locales o en la nube
Conceptos básicos de carga de modelos, enrutamiento de solicitudes y asignación de GPU
Diseño enfocado en la fiabilidad y la simplicidad operativa

Optimización de Latencia en la Práctica

Uso de motores de inferencia optimizados como TensorRT cuando sea aplicable
Conceptos de KV-cache y ajuste práctico del caché
Reducción de la sobrecarga en el inicio, calentamiento y respuesta
Medición del tiempo hasta el primer token y la velocidad de generación de tokens

Capacidad de Procesamiento, Agrupamiento por Lotes y Eficiencia de la GPU

Estrategias de agrupamiento por lotes continuo y por solicitudes
Gestión de la concurrencia y comportamiento de las colas
Mejora del aprovechamiento de la GPU sin perjudicar la experiencia del usuario
Manejo de solicitudes de contexto largo y cargas de trabajo mixtas

Cuantización y Control de Costos

Por qué es crucial la cuantización para el servicio en producción
Compromisos prácticos de FP16, INT8 y otras opciones de precisión comunes
Equilibrio entre calidad del modelo, latencia y costos de infraestructura
Creación de una lista de verificación sencilla para la optimización de costos

Operaciones, Monitoreo y Revisión de Preparación

Disparadores de autoescalado para servicios de inferencia
Monitoreo de latencia, capacidad de procesamiento, uso del caché y salud de la GPU
Conceptos básicos de registro, alertas y respuesta a incidentes
Revisión de un despliegue de referencia y elaboración de un plan de mejora

Requerimientos

Comprensión básica del despliegue de modelos de lenguaje grandes y de los flujos de trabajo de inferencia
Experiencia con contenedores, infraestructura en la nube o local, y servicios basados en API
Conocimiento funcional de Python o tareas de ingeniería de sistemas

Público Objetivo

Ingenieros de ML que despliegan modelos de lenguaje grandes (LLM) en entornos de producción
Ingenieros de plataforma responsables de servicios de inferencia basados en GPU
Arquitectos de soluciones que diseñan plataformas de servicio de IA escalables

14 Horas

Formación Corporativa a Medida

Soluciones de formación diseñadas exclusivamente para empresas.

Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.

Inversión

Precio por grupo privado (formación online) desde 2900 € + IVA*

Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales

(*El precio final puede variar según la especialización técnica del curso, el nivel de personalización, la modalidad y el número de participantes)

¿Necesita ayuda para elegir el curso adecuado?
info@nobleprog.es o +34 911 43 65 67

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Temario del curso

Requerimientos

Formación Corporativa a Medida

Próximos cursos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Categorías Relacionadas

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Temario del curso

Requerimientos

Formación Corporativa a Medida

Próximos cursos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Implementación de Tencent Hunyuan en Producción: Inferencia de Baja Latencia y Optimización de Costos

Cursos Relacionados

Avanzado de LangGraph: Optimización, Depuración y Monitoreo de Grafos Complejos

Building Coding Agents with Devstral: From Agent Design to Tooling

Open-Source Model Ops: Auto-Hospedaje, Ajuste Fino y Gobernanza con Modelos Devstral & Mistral

Aplicaciones de LangGraph en Finanzas

Fundamentos de LangGraph: Generación y Enlazado Basados en Grafos de LLM

LangGraph en la Salud: Orquestación de Flujos de Trabajo para Entornos Regulados

LangGraph para Aplicaciones Legales

Creación de Flujos de Trabajo Dinámicos con LangGraph y Agentes LLM

LangGraph para la Automatización de Marketing

Le Chat Enterprise: ChatOps Privado, Integraciones y Controles de Administración

Cost-Effective LLM Architectures: Mistral at Scale (Performance / Cost Engineering)

Productizando Asistentes Conversacionales con Conectores e Integraciones de Mistral

Enterprise-Grade Deployments with Mistral Medium 3

Mistral para IA Responsable: Privacidad, Residencia de Datos y Controles Empresariales

Aplicaciones Multimodales con Modelos Mistral (Visión, OCR y Comprensión de Documentos)

Categorías Relacionadas

Large Language Models (LLMs)

Este sitio en otros países / regiones

Europe

Asia Pacific

North America

South America

Africa / Middle East

Other sites