Temario del curso

Introducción al Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)

  • ¿Qué es el RLHF y por qué es importante?
  • Comparación con métodos de ajuste supervisado
  • Aplicaciones del RLHF en sistemas de IA modernos

Modelado de Recompensas con Retroalimentación Humana

  • Recopilación y estructuración de la retroalimentación humana
  • Construcción y entrenamiento de modelos de recompensa
  • Evaluación de la efectividad del modelo de recompensa

Entrenamiento con Optimización de Política Proximal (PPO)

  • Visión general de los algoritmos PPO para RLHF
  • Implementación de PPO con modelos de recompensa
  • Ajuste iterativo y seguro de modelos

Ajuste Práctico de Modelos de Lenguaje

  • Preparación de conjuntos de datos para flujos de trabajo de RLHF
  • Ajuste práctico de un modelo de lenguaje pequeño usando RLHF
  • Desafíos y estrategias de mitigación

Escalado del RLHF a Sistemas en Producción

  • Consideraciones de infraestructura y computación
  • Garantía de calidad y bucles de retroalimentación continua
  • Mejores prácticas para implementación y mantenimiento

Consideraciones Éticas y Mitigación del Sesgo

  • Abordar riesgos éticos en la retroalimentación humana
  • Estrategias de detección y corrección de sesgos
  • Asegurar alineación y salidas seguras

Casos de Estudio y Ejemplos del Mundo Real

  • Estudio de caso: Ajuste de ChatGPT con RLHF
  • Otras implementaciones exitosas de RLHF
  • Lecciones aprendidas e insights de la industria

Resumen y Pasos Siguientes

Requerimientos

  • Un conocimiento de los fundamentos del aprendizaje supervisado y por refuerzo
  • Experiencia en el ajuste fino de modelos y arquitecturas de redes neuronales
  • Familiaridad con la programación en Python y marcos de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch)

Audiencia

  • Ingenieros de machine learning
  • Investigadores de IA
 14 Horas

Formación Corporativa a Medida

Soluciones de formación diseñadas exclusivamente para empresas.

  • Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
  • Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
  • Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Inversión

Precio por grupo privado (formación online) desde 3200 € + IVA*

Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales

Próximos cursos

Categorías Relacionadas