Temario del curso
Infraestructura como Código para EXO
- Visión general de patrones de despliegue de EXO: nodos individuales, multinode y clústeres con RDMA
- Automatización de la instalación de dependencias (Xcode, uv, Node.js, Rust) con gestión de configuraciones
- Uso de flakes de Nix para construir entornos de desarrollo y compilaciones reproducibles de EXO
- Redacción de playbooks de Ansible o scripts de shell para el aprovisionamiento no supervisado del clúster
Compilaciones Reproducibles e Integración con CI
- Fijación de dependencias y compilación del panel de control en canalizaciones de CI
- Ejecución de pruebas de humo de EXO en ejecutores de GitHub Actions o GitLab CI
- Creación de imágenes base y flujos de trabajo de retroceso basados en instantáneas para máquinas virtuales de macOS y Linux
- Versionado de tarjetas de modelos personalizados junto con el código de la aplicación
Descubrimiento de Clústeres y Automatización de Redes
- Configuración de mDNS y DNS estático para un descubrimiento fiable de nodos libp2p
- Automatización de la creación de perfiles de red y la gestión de puentes Thunderbolt en macOS
- Uso de espacios de nombres personalizados (EXO_LIBP2P_NAMESPACE) para separar clústeres de desarrollo, staging y producción
- Reglas de firewall y segmentación de red para entornos multiinquilino
Gestión del Ciclo de Vida de Almacenamiento y Modelos
- Diseño de estrategias para EXO_MODELS_DIRS y EXO_MODELS_READ_ONLY_DIRS
- Montaje de comparticiones NFS o SAN como repositorios de modelos de solo lectura para un aprovisionamiento rápido
- Colección de basura de cachés obsoletas y políticas de retención de pesos versionados
- Automatización de la descarga previa de modelos y comprobaciones de estado antes de actualizaciones en cascada
Supervisión y Alertas
- Envío de logs de EXO a un registro centralizado (ELK, Loki o Splunk)
- Construcción de dashboards de Grafana a partir de la salida de EXO_TRACING_ENABLED
- Alertas ante cambios en la membresía del clúster, eventos de OOM y picos de latencia de inferencia
- Correlación de la telemetría de hardware de macmon con regresiones en el rendimiento del modelo
Actualización, Retroceso y Recuperación ante Desastres
- Despliegue progresivo de actualizaciones de binarios EXO en un nodo piloto antes de un despliegue generalizado
- Retroceso a nivel de modelo: cambio entre versiones cuantizadas sin necesidad de volver a descargar
- Respaldo y restauración del estado del clúster, espacios de nombres personalizados y pesos en caché
- Documentación de manuales de recuperación para escenarios de reconstrucción total del clúster
Endurecimiento de Seguridad y Cumplimiento
- Aplicación de TLS en la capa del proxy inverso (nginx, traefik) para el panel de control y la API
- Implementación de límites de tasa de API y listas blancas de IP para los puntos de conexión de EXO
- Aislamiento de clústeres mediante VLANs y políticas de red de confianza cero
- Auditoría del acceso y mantenimiento de un inventario de modelos y versiones desplegados
Requerimientos
- Experiencia con prácticas de DevOps (CI/CD, IaC, orquestación de contenedores)
- Conocimiento de la administración de sistemas y gestión de paquetes en macOS o Linux
- Comprensión de conceptos de redes, DNS y almacenamiento
Público Objetivo
- Ingenieros de DevOps
- Arquitectos de infraestructura
- Ingenieros de Confiabilidad de Sitios (SRE) responsables de cargas de trabajo de IA in-situ
Formación Corporativa a Medida
Soluciones de formación diseñadas exclusivamente para empresas.
- Contenido personalizado: Adaptamos el temario y los ejercicios prácticos a los objetivos y necesidades reales del proyecto.
- Calendario flexible: Fechas y horarios adaptados a la agenda de su equipo.
- Modalidad: Online (en directo), In-company (en sus oficinas) o Híbrida.
Precio por grupo privado (formación online) desde 4350 € + IVA*
Contáctenos para obtener un presupuesto exacto y conocer nuestras promociones actuales
Testimonios (2)
El conocimiento y experiencia del consultor ya que se abordan los temas teóricos aplicándolos a la realidad de los procesos. El curso contiene un programa de mucho valor en la gestión de las tecnologías de información.
Luis Castro Gamboa - Cooperativa De Ahorro Y Credito Ande No. 1 R.L.
Curso - Site Reliability Engineering (SRE) Foundation®
Que fue muy claro en cada especificación