Cursos de SMACK Stack for Data Science
SMACK es una colección de software de plataforma de datos, es decir Apache Spark, Apache Mesos, Apache Akka, Apache Cassandra, y Apache Kafka. Utilizando el paquete SMACK, los usuarios pueden crear y escalar plataformas de procesamiento de datos.
Este entrenamiento guiado por instructores, en vivo (online o on-site) está dirigido a científicos de datos que desean utilizar el SMACK stack para construir plataformas de procesamiento de datos para soluciones de datos grandes.
Al final de este curso, los participantes podrán:
- Implementar una arquitectura de pipeline de datos para el procesamiento de datos grandes.
- Desarrollar una infraestructura de cluster con Apache Mesos y Docker.
- Analizar los datos con Spark y Scala.
- Gestión de datos no estructurados con Apache Cassandra.
Formato del curso
- Lecciones y discusiones interactivas.
- Muchos ejercicios y prácticas.
- Implementación de manos en un entorno de laboratorio en vivo.
Opciones de Customización de Curso
- Para solicitar una formación personalizada para este curso, por favor contacta con nosotros para organizar.
Programa del Curso
Introducción
Descripción general de SMACK Stack
- ¿Qué es Apache Spark? Características de Apache Spark
- ¿Qué es Apache Mesos? Características de Apache Mesos
- ¿Qué es Apache Akka? Características de Apache Akka
- ¿Qué es Apache Cassandra? Características de Apache Cassandra
- ¿Qué es Apache Kafka? Características de Apache Kafka
Scala Idioma
- Scala Sintaxis y estructura
- Scala Flujo de control
Preparación del entorno de desarrollo
- Instalación y configuración de la pila SMACK
- Instalación y configuración Docker
Apache Akka
- Uso de actores
Apache Cassandra
- Creación de una base de datos para operaciones de lectura
- Trabajar con copias de seguridad y recuperación
Conectores
- Creación de una secuencia
- Creación de una aplicación Akka
- Almacenamiento de datos con Cassandra
- Revisión de conectores
Apache Kafka
- Trabajar con clústeres
- Creación, publicación y consumo de mensajes
Apache Mesos
- Asignación de recursos
- Ejecución de clústeres
- Trabajar con Apache Aurora y Docker
- Ejecución de servicios y trabajos
- Implementación de Spark, Cassandra y Kafka en Mesos
Apache Spark
- Administración de flujos de datos
- Trabajar con RDD y tramas de datos
- Realización de análisis de datos
Solución de problemas
- Manejo de fallas de servicios y errores
Resumen y conclusión
Requerimientos
- Comprensión de los sistemas de procesamiento de datos
Audiencia
- Científicos de datos
Los cursos de formación abiertos requieren más de 5 participantes.
Cursos de SMACK Stack for Data Science - Booking
Cursos de SMACK Stack for Data Science - CONSULTA
SMACK Stack for Data Science - Consultas
Testimonios (1)
very interactive...
Richard Langford
Curso - SMACK Stack for Data Science
Próximos cursos
Cursos Relacionados
Kaggle
14 horasEsta capacitación en vivo dirigida por un instructor en España (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que desean aprender y desarrollar sus carreras en Ciencia de Datos utilizando Kaggle.
Al final de esta capacitación, los participantes serán capaces de:
- Obtenga más información sobre la ciencia de datos y el aprendizaje automático.
- Explora el análisis de datos.
- Obtenga más información sobre Kaggle y cómo funciona.
Accelerating Python Pandas Workflows with Modin
14 horasEsta capacitación en vivo dirigida por un instructor en España (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que deseen usar Modin para construir e implementar cálculos paralelos con Pandas para un análisis de datos más rápido.
Al final de esta capacitación, los participantes serán capaces de:
- Configure el entorno necesario para comenzar a desarrollar Pandas flujos de trabajo a escala con Modin.
- Comprenda las características, la arquitectura y las ventajas de Modin.
- Conoce las diferencias entre Modin, Dask y Ray.
- Realice Pandas operaciones más rápido con Modin.
- Implemente toda la API Pandas y las funciones.
GPU Data Science with NVIDIA RAPIDS
14 horasEsta capacitación en vivo dirigida por un instructor en España (en línea o en el sitio) está dirigida a científicos de datos y desarrolladores que deseen utilizar RAPIDS para crear canalizaciones de datos, flujos de trabajo y visualizaciones aceleradas por GPU, aplicando algoritmos de aprendizaje automático, como XGBoost, cuML, etc.
Al final de esta capacitación, los participantes serán capaces de:
- Configure el entorno de desarrollo necesario para crear modelos de datos con NVIDIA RAPIDS.
- Comprender las características, componentes y ventajas de RAPIDS.
- Aproveche las GPU para acelerar las canalizaciones de datos y análisis de extremo a extremo.
- Implemente la preparación de datos acelerada por GPU y ETL con cuDF y Apache Arrow.
- Aprenda a realizar tareas de aprendizaje automático con los algoritmos XGBoost y cuML.
- Cree visualizaciones de datos y ejecute análisis de gráficos con cuXfilter y cuGraph.
Anaconda Ecosystem for Data Scientists
14 horasEsta capacitación en vivo dirigida por un instructor en España (en línea o en el sitio) está dirigida a científicos de datos que desean utilizar el ecosistema Anaconda para capturar, administrar e implementar paquetes y flujos de trabajo de análisis de datos en una sola plataforma.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure los componentes y bibliotecas de Anaconda.
- Comprender los conceptos básicos, las características y los beneficios de Anaconda.
- Administre paquetes, entornos y canales con Anaconda Navigator.
- Utilice los paquetes Conda, R y Python para la ciencia de datos y el aprendizaje automático.
- Conozca algunos casos de uso prácticos y técnicas para administrar múltiples entornos de datos.
Python y Spark para Big Data (PySpark)
21 horasEn esta capacitación en vivo dirigida por un instructor en España, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta capacitación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Introducción a Graph Computing
28 horasEn esta capacitación en vivo dirigida por un instructor en España, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como Graph Analytics). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta capacitación, los participantes serán capaces de:
- Comprenda cómo se conservan y recorren los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Apache Spark MLlib
35 horasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consiste en algoritmos y utilidades de aprendizaje comunes, que incluyen clasificación, regresión, agrupación, filtrado colaborativo, reducción de la dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
spark.mllib contiene la API original construida sobre RDDs.
spark.ml proporciona una API de nivel superior construida sobre DataFrames para construir tuberías de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas integrada para Apache Spark
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 horasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Big Data Business Intelligence for Telecom and Communication Service Providers
35 horasVisión general
Los proveedores de servicios (CSP) se enfrentan a la presión de reducir los costes y maximizar los ingresos medios por usuario (ARPU), al tiempo que garantizan una excelente experiencia al cliente, pero los volúmenes de datos siguen creciendo. El tráfico global de datos móviles crecerá a una tasa de crecimiento anual compuesta (CAGR) del 78 por ciento hasta 2016, alcanzando los 10,8 exabytes por mes.
Mientras tanto, los CSP están generando grandes volúmenes de datos, incluidos los registros detallados de llamadas (CDR), los datos de red y los datos de los clientes. Las empresas que explotan al máximo estos datos obtienen una ventaja competitiva. Según una encuesta reciente de The Economist Intelligence Unit, las empresas que utilizan la toma de decisiones dirigida por datos disfrutan de un aumento del 5-6% en la productividad. Sin embargo, el 53% de las empresas aprovechan solo la mitad de sus valiosos datos, y una cuarta parte de los encuestados señaló que grandes cantidades de datos útiles no se explotan. Los volúmenes de datos son tan altos que el análisis manual es imposible, y la mayoría de los sistemas de software heredados no pueden seguir el ritmo, lo que hace que los datos valiosos se descarten o se ignoren.
Con el software de big data escalable y de alta velocidad de Big Data & Analytics, los CSP pueden extraer todos sus datos para una mejor toma de decisiones en menos tiempo. Los diferentes productos y técnicas de Big Data proporcionan una plataforma de software de extremo a extremo para recopilar, preparar, analizar y presentar información a partir de Big Data. Las áreas de aplicación incluyen el monitoreo del rendimiento de la red, la detección de fraudes, la detección de pérdida de clientes y el análisis de riesgo crediticio. Los productos de Big Data y Analytics se escalan para manejar terabytes de datos, pero la implementación de tales herramientas necesita un nuevo tipo de sistema de base de datos basado en la nube como Hadoop o un procesador de computación paralela a escala masiva (KPU, etc.)
Este curso sobre Big Data BI para telecomunicaciones cubre todas las nuevas áreas emergentes en las que los CSP están invirtiendo para aumentar la productividad y abrir nuevas fuentes de ingresos comerciales. El curso proporcionará una visión completa de 360 grados de Big Data BI en Telco para que los responsables de la toma de decisiones y los gerentes puedan tener una visión general muy amplia y completa de las posibilidades de Big Data BI en Telco para la productividad y el aumento de ingresos.
Objetivos del curso
El objetivo principal del curso es introducir nuevas técnicas de inteligencia de negocio Big Data en 4 sectores de Telecom Negocio (Marketing/Ventas, Operación de Red, Operación Financiera y Gestión de Relaciones con el Cliente). A los estudiantes se les presentará lo siguiente:
- Introducción al Big Data: qué son las 4V (volumen, velocidad, variedad y veracidad) en Big Data: generación, extracción y gestión desde la perspectiva de las telecomunicaciones
- En qué se diferencia el análisis de Big Data del análisis de datos heredado
- Justificación interna de la perspectiva Big Data -Telco
- Introducción al ecosistema de Hadoop: familiaridad con todas las herramientas de Hadoop como Hive, Pig, SPARC: cuándo y cómo se utilizan para resolver problemas de Big Data.
- Cómo se extrae Big Data para analizarlo para la herramienta de análisis: cómo los análisis de negocios pueden reducir sus puntos débiles de recopilación y análisis de datos a través del enfoque integrado del panel de control de Hadoop
- Introducción básica de la analítica de Insight, la analítica de visualización y la analítica predictiva para las empresas de telecomunicaciones
- Análisis de pérdida de clientes y Big Data: cómo el análisis de Big Data puede reducir la pérdida de clientes y la insatisfacción de los clientes en los estudios de casos de telecomunicaciones
- Análisis de fallos de red y fallos de servicio a partir de metadatos de red e IPDR
- Análisis financiero: estimación de fraude, desperdicio y ROI a partir de datos operativos y de ventas
- Problema de adquisición de clientes: marketing objetivo, segmentación de clientes y venta cruzada a partir de datos de ventas
- Introducción y resumen de todos los productos analíticos de Big Data y dónde encajan en el espacio analítico de las telecomunicaciones
- Conclusión: cómo adoptar un enfoque paso a paso para introducir Big Data Business Intelligence en su organización
Público objetivo
- Operación de redes, gerentes financieros, gerentes de CRM y altos gerentes de TI en la oficina de CIO de telecomunicaciones.
- Business Analistas de telecomunicaciones
- Gerentes/analistas de la oficina del CFO
- Gerentes de operaciones
- Gerentes de control de calidad
Ciencia de Datos para Big Data Analytics
35 horasBig data son conjuntos de datos que son tan voluminosos y complejos que el software de aplicación de procesamiento de datos tradicional es inadecuado para manejarlos. Los grandes desafíos de datos incluyen la captura de datos, el almacenamiento de datos, el análisis de datos, la búsqueda, el intercambio, la transferencia, la visualización, la consulta, la actualización y la privacidad de la información.