Programa del Curso

Breve descripción de Speech Recognition Tecnologías

  • Historia y evolución de la reconocimiento de voz
  • Modelos acústicos, modelos lingüísticos y decodificación
  • Arquitecturas modernas: RNNs, transformers y Whisper

Preprocesamiento de Audio y Conceptos Básicos de Transcripción

  • Manejo de formatos de audio y tasas de muestreo
  • Limpieza, corte y segmentación de audio
  • Generar texto a partir del audio: en tiempo real vs por lotes

Práctica con Whisper y otras APIs

  • Instalación y uso de OpenAI Whisper
  • Llamadas a APIs en la nube (Google, Azure) para transcripción
  • Comparar rendimiento, latencia y costo

Idiomas, Acentos y Adaptación de Dominio

  • Trabajar con múltiples idiomas y acentos
  • Vocabularios personalizados y tolerancia al ruido
  • Manejo del lenguaje legal, médico o técnico

Formateo de Salida e Integración

  • Añadir marcas de tiempo, puntuación y etiquetas de hablante
  • Exportar a formatos de texto, SRT o JSON
  • Integrar transcripciones en aplicaciones o bases de datos

Use Case Laboratorios de Implementación

  • Transcribir reuniones, entrevistas u podcasts
  • Sistemas de comando voz-a-texto
  • Subtítulos en tiempo real para transmisiones de video/audio

Evaluación, Limitaciones y Ética

  • Métricas de precisión y pruebas de referencia del modelo
  • Sesgo y equidad en modelos de voz
  • Consideraciones sobre privacidad y conformidad

Resumen y Próximos Pasos

Requerimientos

  • Comprensión de conceptos generales de IA y aprendizaje automático
  • Familiaridad con formatos y herramientas para archivos de audio o medios

audiencia

  • Científicos de datos e ingenieros de IA que trabajan con datos de voz
  • Desarrolladores de software que construyen aplicaciones basadas en transcripción
  • Organizaciones que exploran la reconocimiento de habla para automatización
 14 Horas

Próximos cursos

Categorías Relacionadas