Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Programa del Curso
Introducción a la inteligencia artificial multimodal
- ¿Qué es la IA multimodal?
- Desafíos y aplicaciones clave
- Resumen de los principales modelos multimodales
Procesamiento de texto y comprensión del lenguaje natural
- Aprovechando LLMs para agentes de IA basados en texto
- Entendiendo la ingeniería de primero para tareas multimodales
- Ajuste fino de modelos de texto para aplicaciones específicas de dominio
Reconocimiento e generación de imágenes
- Procesamiento de imágenes con IA: clasificación, subtitulado y detección de objetos
- Generar imágenes con modelos de difusión (Stable Diffusion, DALLE)
- Integrar datos de imagen con modelos basados en texto
Procesamiento de voz y audio
- Reconocimiento de voz con Whisper ASR
- Técnicas de síntesis de texto a voz (TTS)
- Mejorar la interacción del usuario con IA basada en voz
Integración de entradas multimodales
- Construyendo tuberías de IA para procesar múltiples tipos de entrada
- Técnicas de fusión para combinar datos de texto, imagen y voz
- Aplicaciones del mundo real de agentes de IA multimodales
Implementación de Multi-Modal AI Agents
- Construyendo soluciones de IA multimodal impulsadas por API
- Optimizar modelos para rendimiento y escalabilidad
- Mejores prácticas para implementar IA multimodal en producción
Consideraciones éticas y tendencias futuras
- Sesgo y equidad en la IA multimodal
- Preocupaciones de privacidad con datos multimodales
- Desarrollos futuros en IA multimodal
Resumen y próximos pasos
Requerimientos
- Una comprensión de los fundamentos del aprendizaje automático
- Experiencia con programación
- Familiaridad con los marcos de aprendizaje profundo (por ejemplo, Py)
Público objetivo
- Desarrolladores de IA
- Investigadores
- Ingenieros en multimedia
21 Horas
Testimonios (1)
Entrenador respondiendo preguntas al vuelo.
Adrian
Curso - Agentic AI Unleashed: Crafting LLM Applications with AutoGen
Traducción Automática