Gracias por enviar su consulta! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Gracias por enviar su reserva! Uno de los miembros de nuestro equipo se pondrá en contacto con usted en breve.
Temario del curso
Introducción a la Multimodalidad con Gemini 3
- Capabilidades en texto, imágenes, audio y video
- Selección de modelos y visión general de los puntos finales
- Conceptos clave en el razonamiento multimodal
Trabajo con Texto y Entradas Estructuradas
- Estrategias de prompting para la generación de texto
- Metadatos, ventanas de contexto y embeddings
- Orquestación basada en texto de tareas multimodales
Comprensión de Imágenes y Flujos Visuales
- Análisis e interpretación de imágenes con Gemini 3
- Creación de herramientas de búsqueda visual y etiquetado
- Construcción de interacciones imagen a texto y texto a imagen
Procesamiento de Entradas de Audio
- Flujo de trabajo de reconocimiento y transcripción de voz
- Detección e interpretación de eventos de audio
- Integración de audio con entradas de texto y visuales
Inteligencia de Video y Análisis de Escenas
- Razonamiento frame a frame y continuo en video
- Construcción de herramientas de resumen y extracción de puntos destacados
- Automatización basada en video y flujos de contenido
Diseño de Arquitecturas de Aplicaciones Multimodales
- Combinación de múltiples tipos de entrada en un solo pipeline
- Consideraciones de latencia, costo y computación
- Mejores prácticas para sistemas multimodales escalables
Prototipado de Aplicaciones Multimodales
- Creación hands-on de prototipos multimodales
- Iteración rápida con ingeniería de prompts
- Prueba y refinamiento de flujos de experiencia del usuario
Implementación de Soluciones Multimodales
- Estrategias de implementación y configuración del entorno
- Monitoreo del rendimiento en el mundo real
- Consideraciones de seguridad y cumplimiento
Resumen y Pasos Siguientes
Requerimientos
- Comprensión de conceptos modernos de IA
- Experiencia con Python o JavaScript
- Familiaridad con REST APIs
Audiencia
- Diseñadores
- Creadores de contenido
- Equipos técnicos de productos
14 Horas
Testimonios (1)
Flujo, ambiente y tema de la presentación
Lukasz Kowalczyk - Allegro Sp. z o.o.
Curso - Google Gemini AI for Data Analysis
Traducción Automática