Programa del Curso

Introducción a AIOps con Herramientas de Código Abierto

  • Visión general de los conceptos y beneficios de AIOps
  • Prometheus y Grafana en la pila de observabilidad
  • Dónde se integra el ML en AIOps: análisis predictivo vs. reactivo

Configuración de Prometheus y Grafana

  • Instalación y configuración de Prometheus para la recopilación de series temporales
  • Creador de paneles en Grafana utilizando métricas en tiempo real
  • Explorando exportadores, relabeling y descubrimiento de servicios

Preprocesamiento de Datos para ML

  • Extracción y transformación de las métricas de Prometheus
  • Preparación de conjuntos de datos para la detección de anomalías y pronósticos
  • Utilización de transformaciones de Grafana o tuberías de Python

Aplicación del ML para Detección de Anomalías

  • Modelos de ML básicos para la detección de outliers (por ejemplo, Bosque de Aislamiento, SVM Uniclase)
  • Entrenamiento y evaluación de modelos en datos de series temporales
  • Visualización de anomalías en paneles de Grafana

Métricas de Forecasting con ML

  • Cómo construir modelos de pronóstico sencillos (ARIMA, Prophet, introducción a LSTM)
  • Pronosticar la carga del sistema o el uso de recursos
  • Utilización de predicciones para alertas tempranas y decisiones de escalado

Integración del ML con Alerting y Automatización

  • Definición de reglas de alerta basadas en la salida del ML o umbrales
  • Uso de Alertmanager y ruteo de notificaciones
  • Activación de scripts o flujos de trabajo automatizados con detección de anomalías

Escalar e Implementar AIOps

  • Integración de herramientas externas de observabilidad (por ejemplo, ELK stack, Moogsoft, Dynatrace)
  • Implementación operativa de modelos de ML en tuberías de observabilidad
  • Prácticas recomendadas para AIOps a gran escala

Resumen y Próximos Pasos

Requerimientos

  • Comprender los conceptos de monitoreo y observabilidad del sistema
  • Experiencia usando Grafana o Prometheus
  • Familiaridad con Python y principios básicos de aprendizaje automático

Público Objetivo

  • Ingenieros de observabilidad
  • Equipos de infraestructura y DevOps
  • Arquitectos de plataformas de monitoreo e ingenieros de fiabilidad del sitio (SREs)
 14 Horas

Próximos cursos

Categorías Relacionadas