Programa del Curso

Diseñando una Arquitectura Abierta de AIOps

  • Visión general de los componentes clave en las tuberías abiertas de AIOps
  • Flujo de datos desde la ingesta hasta la alerta
  • Comparación y estrategia de integración de herramientas

Colección y Agregación de Datos

  • Ingesta de datos de series temporales con Prometheus
  • Captura de registros con Logstash y Beats
  • Normalización de datos para correlación inter-fuente

Construcción de Tableros de Observabilidad

  • Visualización de métricas con Grafana
  • Creación de tableros de análisis de registros en Kibana
  • Uso de consultas Elasticsearch para extraer insights operacionales

Detección de Anomalías y Predicción de Incidentes

  • Exportación de datos de observabilidad a las tuberías de Python
  • Entrenamiento de modelos ML para detección de outliers y pronósticos
  • Implementación de modelos para inferencia en vivo en la tubería de observabilidad

Alertas y Automatización con Herramientas Abiertas

  • Creador de reglas de alerta Prometheus y ruteo de Alertmanager
  • Iniciación de scripts o flujos de trabajo API para respuesta automática
  • Uso de herramientas de orquestación de código abierto (ej., Ansible, Rundeck)

Consideraciones de Integración y Escalabilidad

  • Gestión de la ingesta de alta volumen y retención a largo plazo
  • Seguridad y control de acceso en pilas de código abierto
  • Escala cada capa independientemente: ingesta, procesamiento, alertas

Aplicaciones y Extensiones del Mundo Real

  • Casos de estudio: ajuste de rendimiento, prevención de tiempos muertos y optimización de costos
  • Extensión de las tuberías con herramientas de seguimiento o gráficos de servicios
  • Mejores prácticas para ejecutar y mantener AIOps en producción

Resumen y Próximos Pasos

Requerimientos

  • Experiencia con herramientas de observabilidad como Prometheus o ELK
  • Conocimiento práctico de Python y fundamentos de aprendizaje automático
  • Comprensión de las operaciones IT y los flujos de trabajo de alertas

Audiencia

  • Ingenieros avanzados de confiabilidad del sitio (SREs)
  • Ingenieros de datos que trabajan en operaciones
  • Líderes de plataformas DevOps y arquitectos de infraestructura
 14 Horas

Próximos cursos

Categorías Relacionadas