Cursos de Big Data

Big Data Training

BigData is a term referred to solutions destined for storing and processing large data sets. BigData solutions have been initially developed by Google, however, now a lot of open-source implementations are available including Apache Hadoop, Cassandra or Cloudera Impala. According to Gartner’s reports BigData is the next big step in IT just after the Cloud Computing and will be a leading trend in the next several years.

Testi...Client Testimonials

Solr for Developers

He is provided great example for each topic

Onoriode Ikede - Government of Prince Edward Island

Solr for Developers

He is provided great example for each topic

Onoriode Ikede - Government of Prince Edward Island

Solr for Developers

The trainer has provided great example for each topic

Onoriode Ikede - Government of Prince Edward Island

Data Mining & Machine Learning with R

The trainer was so knowledgeable and included areas I was interested in

Mohamed Salama - Edmonton Police Service

Spark for Developers

Richard is very calm and methodical, with an analytical insight - exactly the qualities needed to present this sort of course

Kieran Mac Kenna - BAE Systems Applied Intelligence

Administrator Training for Apache Hadoop

Trainer give reallive Examples

Simon Hahn - OPITZ CONSULTING Deutschland GmbH

Administrator Training for Apache Hadoop

Big competences of Trainer

Grzegorz Gorski - OPITZ CONSULTING Deutschland GmbH

Administrator Training for Apache Hadoop

Many hands-on sessions.

Jacek Pieczątka - OPITZ CONSULTING Deutschland GmbH

Neural Network in R

new insights in deep machine learning

Josip Arneric - Faculty of Economics and Business Zagreb

Neural Network in R

We gained some knowledge about NN in general, and what was the most interesting for me were the new types of NN that are popular nowadays.

Tea Poklepovic - Faculty of Economics and Business Zagreb

Neural Network in R

Graphs in R :)))

- Faculty of Economics and Business Zagreb

Cassandra for Developers

Topics approached. Very complete.

Carlos Eloi Barros - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

The last exercise was very good.

José Monteiro - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

I already using and have a application in production with cassandra so mostly of the topics i already know but the data modeling and advanced topics are a lot interesting.

Tiago Costa - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

There was a lot of knowledge and material shared that will help me to do my current tasks.

Miguel Fernandes - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

The amount of exercises. We could immediately apply the knowledge shared and ensure the information was on point.

Joana Pereira - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

All technical explanation and theoretical introduction

André Santos - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

Very good explanations with in depth examples

Rui Magalhaes - Farfetch Portugal - Unipessoal, Lda

Cassandra for Developers

The practical exercises and examples of implementing examples of real models and contexts

Leandro Gomes - Farfetch Portugal - Unipessoal, Lda

A practical introduction to Data Analysis and Big Data

Willingness to share more

Balaram Chandra Paul - MOL Information Technology Asia Limited

Semantic Web Overview

He was interactive

Suraj - PointCross

Spark for Developers

We know know a lot more about the whole environment

John Kidd - Cardano Risk Management

Spark for Developers

The trainer made the class interesting and entertaining which helps quite a bit with all day trainings

Ryan Speelman -

Spark for Developers

I think the trainer had an excellent style of combining humor and real life stories to make the subjects at hand very approachable. I would highly recommend this professor in the future.

Spark for Developers

I think the trainer had an excellent style of combining humor and real life stories to make the subjects at hand very approachable. I would highly recommend this professor in the future.

Spark for Developers

Ernesto did a great job explaining the high level concepts of using Spark and it's various modules.

Michael Nemerouf -

IoT (Internet of Things) for Entrepreneurs, Managers and Investors

Some new and interesting ideas. Meeting and interacting with other attendees

TECTERRA

Cassandra Administration

The 1:1 style meant the training was tailored to my individual needs.

Andy McGuigan - Axon Public Safety UK Limited

A practical introduction to Data Analysis and Big Data

It covered a broad range of information.

Continental AG / Abteilung: CF IT Finance

A practical introduction to Data Analysis and Big Data

presentation of technologies

Continental AG / Abteilung: CF IT Finance

A practical introduction to Data Analysis and Big Data

Overall the Content was good.

Sameer Rohadia - Continental AG / Abteilung: CF IT Finance

Beyond the relational database: neo4j

Flexibility to blend in with Autodata related details to get more of a real world scenario as we went on.

Autodata Ltd

Beyond the relational database: neo4j

Flexibility to blend in with Autodata related details to get more of a real world scenario as we went on.

Autodata Ltd

Beyond the relational database: neo4j

The trainer did bring some good insight and ways to approach developing a graph database. He used examples from the slides presented but also drew on his own experience which was good.

Autodata Ltd

Beyond the relational database: neo4j

The trainer did bring some good insight and ways to approach developing a graph database. He used examples from the slides presented but also drew on his own experience which was good.

Autodata Ltd

Beyond the relational database: neo4j

The trainer did bring some good insight and ways to approach developing a graph database. He used examples from the slides presented but also drew on his own experience which was good.

Autodata Ltd

Subcategorías

Programas de los Cursos de Big Data

Código Nombre Duración Información General
d2dbdpa De los Datos a la Decisión con Big Data y Análisis Predictivo 21 horas Audiencia Si intenta dar sentido a los datos a los que tiene acceso o desea analizar datos no estructurados disponibles en la red (como Twitter, Linked in, etc ...) este curso es para usted. Está dirigido principalmente a los tomadores de decisiones y las personas que necesitan elegir qué datos vale la pena recopilar y qué vale la pena analizar. No está dirigido a las personas que configuran la solución, esas personas se beneficiarán de la imagen grande sin embargo. Modo de entrega Durante el curso se presentarán a los delegados ejemplos prácticos de la mayoría de las tecnologías de código abierto. Las conferencias cortas serán seguidas por la presentación y los ejercicios simples por los participantes Contenido y software utilizados Todo el software utilizado se actualiza cada vez que se ejecuta el curso, así que verificamos las versiones más recientes posibles. Cubre el proceso de obtener, formatear, procesar y analizar los datos, para explicar cómo automatizar el proceso de toma de decisiones con el aprendizaje automático. Vista rápida Fuentes de datos Datos de encuadernación Sistemas de recomendación Objetivo de mercado Tipos de datos Estructurado vs no estructurado Estático vs transmitido Datos actitudinales, de comportamiento y demográficos Análisis basado en datos y en el usuario Validez de los datos Volumen, velocidad y variedad de datos Modelos La construcción de modelos Modelos Estadísticos Aprendizaje automático Clasificación de datos Clustering KGrupos, k-medios, vecinos más cercanos Colonias de hormigas, aves flocadas Modelos predictivos Árboles de decisión Máquinas de vectores soporte Clasificación Naive Bayes Redes neuronales Modelo de Markov Regresión Métodos de Ensemble ROI Relación beneficio / costo Costo del software Costo de desarrollo Beneficios potenciales La construcción de modelos Preparación de datos (MapReduce) Limpieza de datos Selección de métodos Modelo en desarrollo Modelo de prueba Evaluación del modelo Implementación e integración de modelos Visión general del software de código abierto y comercial Selección del paquete R-project Bibliotecas de Python Hadoop y Mahout Proyectos seleccionados de Apache relacionados con Big Data y Analytics Solución comercial seleccionada Integración con software y fuentes de datos existentes Precios Etiquetas: Prima  
hadoopba Hadoop para Analistas de Negocios 21 horas Apache Hadoop es el marco más popular para el procesamiento de Big Data. Hadoop proporciona una capacidad analítica rica y profunda, y está haciendo in-roads en el mundo analítico de BI tradicional. Este curso presentará a un analista a los componentes principales del sistema Hadoop eco y sus análisis Audiencia Analistas de Negocios Duración tres días Formato Conferencias y manos sobre laboratorios. Sección 1: Introducción a Hadoop Hadoop historia, conceptos Sistema ecológico Distribuciones Arquitectura de alto nivel Mitos hadoop Desafíos de hadoop Hardware software Labs: primer vistazo a Hadoop Sección 2: Descripción de HDFS Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack) Arquitectura (Namenode, Namenode secundario, nodo de datos) Integridad de los datos Futuro de HDFS: Namenode HA, Federación De laboratorio: interacción con HDFS Sección 3: Mapa Reducir Resumen Mapreduce conceptos Daemons: jobtracker / tasktracker Fases: driver, mapper, shuffle / sort, reductor Pensar en mapa reduce Futuro del mapreduce (hilo) Laboratorios: Ejecución de un programa de reducción de mapa Sección 4: Cerdo Cerdo vs java mapa reducir Lengua latina del cerdo Funciones definidas por el usuario Entender el flujo de trabajo de los cerdos Análisis de datos básicos con Pig Análisis de datos complejos con Pig Multi conjuntos de datos con cerdo Conceptos avanzados Laboratorio: escribir scripts de cerdo para analizar / transformar datos Sección 5: Colmena Conceptos de la colmena Arquitectura Soporte de SQL en Hive Tipos de datos Creación de tablas y consultas Gestión de datos de colmena Particiones y uniones Análisis de texto Labs (multiple): creación de tablas Hive y ejecución de consultas, uniones, uso de particiones, uso de funciones de análisis de texto Sección 6: Herramientas de BI para Hadoop Herramientas de BI y Hadoop Vista general de las herramientas de BI actuales Elegir la mejor herramienta para el trabajo
flink Flink for scalable stream and batch data processing 28 horas To request a customized course outline for this training, please contact us.  
nifi Apache NiFi for Administrators 21 horas Apache NiFi (Hortonworks DataFlow) is a real-time integrated data logistics and simple event processing platform that enables the moving, tracking and automation of data between systems. It is written using flow-based programming and provides a web-based user interface to manage dataflows in real time. In this instructor-led, live training, participants will learn how to deploy and manage Apache NiFi in a live lab environment. By the end of this training, participants will be able to: Install and configure Apachi NiFi Source, transform and manage data from disparate, distributed data sources, including databases and big data lakes Automate dataflows Enable streaming analytics Apply various approaches for data ingestion Transform Big Data and into business insights Audience System administrators Data engineers Developers DevOps Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Introduction to Apache NiFi        Data at rest vs data in motion Overview of big data and Apache Hadoop     HDFS and MapReduce architecture Installing and configuring NiFi Cluster integration NiFi FlowFile Processor NiFi Flow Controller Database aggregating, splitting and transforming Troubleshooting Closing remarks
apachemdev Apache Mahout para Desarrolladores 14 horas Audiencia Desarrolladores involucrados en proyectos que usan el aprendizaje automático con Apache Mahout. Formato Manos en la introducción al aprendizaje de la máquina. El curso se imparte en un formato de laboratorio basado en casos reales de uso práctico. Implementación de sistemas de recomendación con Mahout Introducción a los sistemas de recomendación Representación de datos recomendados Hacer una recomendación Optimización de la recomendación Clustering Conceptos básicos de agrupación Representación de datos Algoritmos de agrupación Mejoras en la calidad de la agrupación Optimización de la implementación de clústeres Aplicación de clustering en el mundo real Clasificación Fundamentos de la clasificación Formación clasificadora Mejoras en la calidad del clasificador
hadoopadm1 Hadoop para Administradores 21 horas Apache Hadoop es el marco más popular para procesar Big Data en clústeres de servidores. En este curso de tres (opcionalmente, cuatro) días, los asistentes aprenderán sobre los beneficios empresariales y los casos de uso de Hadoop y su ecosistema, cómo planificar el despliegue y crecimiento del clúster, cómo instalar, mantener, monitorear, solucionar y optimizar Hadoop. También practicarán la carga de datos a granel del clúster, se familiarizarán con varias distribuciones de Hadoop y practicarán la instalación y administración de herramientas del ecosistema de Hadoop. El curso finaliza con la discusión sobre la seguridad del clúster con Kerberos. "... Los materiales estaban muy bien preparados y cubiertos a fondo. El laboratorio fue muy servicial y bien organizado " - Andrew Nguyen, Ingeniero Principal de Integración DW, Microsoft Online Advertising Audiencia Administradores de Hadoop Formato Conferencias y laboratorios prácticos, balance aproximado 60% conferencias, 40% laboratorios. Introducción Historia de Hadoop, conceptos Ecosistema Distribuciones Arquitectura de alto nivel Mitos de Hadoop Retos de Hadoop (hardware / software) Laboratorios: discuta sus proyectos y problemas de Big Data Planificación e instalación Selección de software, distribuciones Hadoop Dimensionamiento del cluster, planificación del crecimiento Selección de hardware y red Topología de bastidor Instalación Multi Alquiler Estructura de directorios, registros Benchmarking Labs: instalación de clústeres, ejecución de benchmarks de rendimiento Operaciones HDFS Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack) Nodos y demonios (NameNode, Second NameNode, HA Standby NameNode, DataNode) Vigilancia de la salud Administración basada en la línea de comandos y en el navegador Adición de almacenamiento, sustitución de unidades defectuosas Labs: familiarizarse con las líneas de comando HDFS Ingesta de datos Flume para registros y otra ingesta de datos en HDFS Sqoop para importar desde bases de datos SQL a HDFS, así como exportar de nuevo a SQL Almacenamiento de datos Hadoop con Hive Copiar datos entre clústeres (distcp) Uso de S3 como complemento de HDFS Mejores prácticas y arquitecturas de la ingesta de datos Labs: configurar y usar Flume, lo mismo para Sqoop Operaciones y administración de MapReduce Computación paralela antes de mapreduce: comparar administración HPC vs Hadoop Cargas del clúster MapReduce Nodos y Daemons (JobTracker, TaskTracker) La interfaz de usuario de MapReduce Configuración de Mapreduce Configuración de trabajo Optimización de MapReduce Fool-proofing MR: qué decirle a tus programadores Labs: ejecutando ejemplos de MapReduce YARN: nueva arquitectura y nuevas capacidades Objetivos de diseño y arquitectura de implementación de YARN Nuevos actores: ResourceManager, NodeManager, Application Master Instalación de YARN Programación de trabajos bajo YARN Laboratorios: investigar la programación de tareas Temas avanzados Monitorización de hardware Monitoreo de Cluster Adición y eliminación de servidores, actualización de Hadoop Planificación de la copia de seguridad, recuperación y continuidad del negocio Flujos de trabajo Oozie Hadoop alta disponibilidad (HA) Federación Hadoop Asegurar el clúster con Kerberos Labs: configurar el monitoreo Pistas opcionales Cloudera Manager para administración de clústeres, monitoreo y tareas de rutina; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del entorno de distribución de Cloudera (CDH5) Ambari para administración de clúster, monitoreo y tareas de rutina; instalación, uso. En esta pista, todos los ejercicios y laboratorios se realizan dentro del Administrador de clústeres de Ambari y Hortonworks Data Platform (HDP 2.0)  
apex Apache Apex: Processing big data-in-motion 21 horas Apache Apex is a YARN-native platform that unifies stream and batch processing. It processes big data-in-motion in a way that is scalable, performant, fault-tolerant, stateful, secure, distributed, and easily operable. This instructor-led, live training introduces Apache Apex's unified stream processing architecture and walks participants through the creation of a distributed application using Apex on Hadoop. By the end of this training, participants will be able to: Understand data processing pipeline concepts such as connectors for sources and sinks, common data transformations, etc. Build, scale and optimize an Apex application Process real-time data streams reliably and with minimum latency Use Apex Core and the Apex Malhar library to enable rapid application development Use the Apex API to write and re-use existing Java code Integrate Apex into other applications as a processing engine Tune, test and scale Apex applications Audience Developers Enterprise architects Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
nifidev Apache NiFi for Developers 7 horas Apache NiFi (Hortonworks DataFlow) is a real-time integrated data logistics and simple event processing platform that enables the moving, tracking and automation of data between systems. It is written using flow-based programming and provides a web-based user interface to manage dataflows in real time. In this instructor-led, live training, participants will learn the fundamentals of flow-based programming as they develop a number of demo extensions, components and processors using Apache NiFi. By the end of this training, participants will be able to: Understand NiFi's architecture and dataflow concepts Develop extensions using NiFi and third-party APIs Custom develop their own Apache Nifi processor Ingest and process real-time data from disparate and uncommon file formats and data sources Audience Developers Data engineers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Introduction     Data at rest vs data in motion Overview of big data tools and technologies     Hadoop (HDFS and MapReduce) and Spark Installing and configuring NiFi Overview of NiFi architecture Development approaches     Application development tools and mindset     Extract, Transform, and Load (ETL) tools and mindset Design considerations Components, events, and processor patterns Exercise: Streaming data feeds into HDFS Error Handling Controller Services Exercise: Ingesting data from IoT devices using web-based APIs Exercise: Developing a custom Apache Nifi processor using JSON Testing and troubleshooting Contributing to Apache NiFi Closing remarks
neo4j Más allá de la Base de Datos Relacional: neo4j 21 horas Las bases de datos relacionales basadas en tablas, como Oracle y MySQL, han sido durante mucho tiempo el estándar para organizar y almacenar datos. Sin embargo, el tamaño creciente y la fluidez de los datos han dificultado que estos sistemas tradicionales ejecuten eficientemente consultas muy complejas sobre los datos. Imagínese reemplazar el almacenamiento de datos basado en filas y columnas con el almacenamiento de datos basado en objetos, por medio del cual las entidades (por ejemplo, una persona) podrían ser almacenadas como nodos de datos y luego ser consultadas fácilmente sobre la base de su vasta relación multi lineal con otros nodos . E imaginar la consulta de estas conexiones y sus objetos asociados y propiedades utilizando una sintaxis compacta, hasta 20 veces más ligero que el SQL? Esto es lo que ofrecen las bases de datos gráficas, como neo4j. En este curso práctico, estableceremos un proyecto en vivo y pondremos en práctica las habilidades para modelar, gestionar y acceder a sus datos. Comparamos y comparamos bases de datos gráficas con bases de datos basadas en SQL, así como otras bases de datos NoSQL y aclaramos cuándo y dónde tiene sentido implementar cada una dentro de su infraestructura. Audiencia Administradores de bases de datos (DBA) Analistas de datos Desarrolladores Administradores del sistema Ingenieros de DevOps Analistas de Negocios Directores de tecnología Directores de informática Formato del curso Fuerte énfasis en práctica práctica. La mayoría de los conceptos se aprenden a través de muestras, ejercicios y desarrollo práctico. Introducción a neo4j Neo4j vs bases de datos relacionales Neo4j vs otras bases de datos NoSQL Usando neo4j para resolver problemas del mundo real Instalando neo4j Modelado de datos con neo4j Mapeando diagramas de pizarra y mapas mentales a neo4 Trabajo con nodos Creación, cambio y eliminación de nodos Definición de propiedades de nodo Relaciones de nodos Creación y eliminación de relaciones Relaciones bidireccionales Consultando sus datos con Cypher Consultar sus datos basados en relaciones MATCH, RETURN, WHERE, REMOVE, MERGE, etc. Establecimiento de índices y restricciones Trabajar con la API REST Operaciones REST en nodos Operaciones REST en relaciones Operaciones REST en índices y restricciones ​ Acceso a la API principal para el desarrollo de aplicaciones Trabajar con NET, Java, Javascript, API de Python Comentarios de cierre
hadoopadm Administración de Hadoop 21 horas El curso está dedicado a especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en entornos de sistemas distribuidos Objetivo del curso: Obtención de conocimientos sobre la administración de clúster de Hadoop Introducción a las soluciones Cloud Computing y Big Data Evolución de Apache Hadoop: HDFS, MapReduce, YARN Instalación y configuración de Hadoop en modo Pseudo-distribuido Ejecución de trabajos MapReduce en el clúster Hadoop Planificación, instalación y configuración de clústeres de Hadoop Hadoop ecosistema: cerdo, colmena, Sqoop, HBase Futuro de Big Data: Impala, Cassandra
vespa Vespa: Serving large-scale data in real-time 14 horas Vespa an open-source big data processing and serving engine created by Yahoo.  It is used to respond to user queries, make recommendations, and provide personalized content and advertisements in real-time. This instructor-led, live training introduces the challenges of serving large-scale data and walks participants through the creation of an application that can compute responses to user requests, over large datasets in real-time. By the end of this training, participants will be able to: Use Vespa to quickly compute data (store, search, rank, organize) at serving time while a user waits Implement Vespa into existing applications involving feature search, recommendations, and personalization Integrate and deploy Vespa with existing big data systems such as Hadoop and Storm. Audience Developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
cassdev Cassandra para Desarrolladores 21 horas Este curso presentará Cassandra - una popular base de datos NoSQL. Cubrirá los principios de Cassandra, la arquitectura y el modelo de datos. Los estudiantes aprenderán el modelado de datos en CQL (Cassandra Query Language) en laboratorios prácticos e interactivos. Esta sesión también discute Cassandra internals y algunos temas de administración. Duración: 3 días Audiencia: Desarrolladores Sección 1: Introducción a Big Data / NoSQL Descripción general de NoSQL Teorema del CAP ¿Cuándo es apropiado NoSQL? Almacenamiento columnar Ecosistema NoSQL Sección 2: Fundamentos de Cassandra Diseño y arquitectura Cassandra nodos, clusters, datacenters Espacios de teclas, tablas, filas y columnas Particionamiento, replicación, tokens Niveles de quórum y consistencia Labs: interactuando con cassandra usando CQLSH Sección 3: Modelado de datos - parte 1 introducción a CQL CQL Datatypes creación de espacios y tablas Selección de columnas y tipos Selección de claves principales Diseño de datos para filas y columnas Tiempo de vivir (TTL) Consultando con CQL Actualizaciones de CQL Colecciones (lista / mapa / conjunto) Laboratorios: varios ejercicios de modelado de datos usando CQL; experimentando con consultas y tipos de datos soportados Sección 4: Modelado de datos - parte 2 Creación y uso de índices secundarios claves compuestas (claves de partición y claves de clúster) Datos de series de tiempo Mejores prácticas para datos de series de tiempo Contadores Transacciones ligeras (LWT) Labs: creación y utilización de índices; modelado de datos de series temporales Sección 5: Laboratorios de Modelado de Datos: Sesión de diseño de grupo se presentan casos de uso múltiple de varios dominios los estudiantes trabajan en grupos para presentar diseños y modelos discutir varios diseños, analizar decisiones Laboratorio: implementar uno de los escenarios Sección 6: Los conductores de Cassandra Introducción al controlador Java Operaciones CRUD (Crear / Leer / Actualizar, Borrar) utilizando cliente Java Consultas asincrónicas Labs: usando Java API para Cassandra Sección 7: Cassandra Internals entender el diseño de Cassandra bajo el capó sstables, memtables, log de confirmación ruta de lectura / escritura Almacenamiento en caché vnodos Sección 8: Administración Selección de hardware Distribuciones de Cassandra Las mejores prácticas de Cassandra (compactación, recolección de basura) herramientas y consejos para la solución de problemas Laboratorio: los estudiantes instalan Cassandra, ejecutan pruebas comparativas Sección 9: Laboratorio de Bono (si el tiempo lo permite) Implementar un servicio de música como Pandora / Spotify en Cassandra
smtwebint Descripción de la Web Semántica 7 horas La Web Semántica es un movimiento de colaboración dirigido por el World Wide Web Consortium (W3C) que promueve formatos comunes para los datos en la World Wide Web. La Web Semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de límites de aplicaciones, empresas y comunidades. Descripción General de la Web Semántica Introducción Propósito Normas Ontología Proyectos Descripción de Recursos (RDF) Introducción La motivación y Objetivos Conceptos RDF RDF Vocabulario URI y Espacio de nombres (normativo) Tipos de Datos (normativo) De sintaxis abstracta (normativo) Identificadores de fragmentos
hadoopforprojectmgrs Hadoop for Project Managers 14 horas As more and more software and IT projects migrate from local processing and data management to distributed processing and big data storage, Project Managers are finding the need to upgrade their knowledge and skills to grasp the concepts and practices relevant to Big Data projects and opportunities. This course introduces Project Managers to the most popular Big Data processing framework: Hadoop.   In this instructor-led training, participants will learn the core components of the Hadoop ecosystem and how these technologies can used to solve large-scale problems. In learning these foundations, participants will also improve their ability to communicate with the developers and implementers of these systems as well as the data scientists and analysts that many IT projects involve. Audience Project Managers wishing to implement Hadoop into their existing development or IT infrastructure Project Managers needing to communicate with cross-functional teams that include big data engineers, data scientists and business analysts Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Introduction     Why and how project teams adopt Hadoop.     How it all started     The Project Manager's role in Hadoop projects Understanding Hadoop's architecture and key concepts     HDFS     MapReduce     Other pieces of the Hadoop ecosystem What constitutes Big Data? Different approaches to storing Big Data HDFS (Hadoop Distributed File System) as the foundation How Big Data is processed     The power of distributed processing Processing data with Map Reduce     How data is picked apart step by step The role of clustering in large-scale distributed processing     Architectural overview     Clustering approaches Clustering your data and processes with YARN The role of non-relational database in Big Data storage Working with Hadoop's non-relational database: HBase Data warehousing architectural overview Managing your data warehouse with Hive Running Hadoop from shell-scripts Working with Hadoop Streaming Other Hadoop tools and utilities Getting started on a Hadoop project     Demystifying complexity Migrating an existing project to Hadoop     Infrastructure considerations     Scaling beyond your allocated resources Hadoop project stakeholders and their toolkits     Developers, data scientists, business analysts and project managers Hadoop as a foundation for new technologies and approaches Closing remarks
hadoopmapr Administración de Hadoop en MapR 28 horas Audiencia: Este curso pretende desmitificar la tecnología de datos / hadoop y demostrar que no es difícil de entender. Descripción general de los grandes datos: Qué es Big Data? Por qué Big Data está ganando popularidad Grandes estudios de datos Características de los grandes datos Soluciones para trabajar en Big Data. Hadoop y sus componentes: Qué es Hadoop y cuáles son sus componentes. Arquitectura Hadoop y sus características de Datos que puede manejar / Procesar. Breve historia de Hadoop, empresas que la usan y por qué han comenzado a usarla. Hadoop Marco de trabajo y sus componentes-explicado en detalle. ¿Qué es HDFS y lee? -escribe al sistema de archivos distribuido de Hadoop. Cómo configurar Hadoop Cluster en diferentes modos: Stand-alone / Pseudo / Multi Node cluster. (Esto incluye configurar un clúster de Hadoop en VirtualBox / KVM / VMware, configuraciones de red que deben ser examinadas cuidadosamente, ejecutar Daemons de Hadoop y probar el clúster). Qué es el trabajo de marco Reducir mapa y cómo funciona. Ejecución de mapas Reduzca los trabajos en el clúster Hadoop. Entender la replicación, el reflejo y la conciencia Rack en el contexto de los clústeres Hadoop.​ Planificación de clústeres de Hadoop: Cómo planificar su clúster de hadoop. Entender el software de hardware para planificar el clúster de hadoop. Comprender las cargas de trabajo y el clúster de planificación para evitar fallos y realizar un trabajo óptimo. Qué es MapR y por qué MapR: Visión general de MapR y su arquitectura. Comprensión y funcionamiento de MapR Control System, volúmenes MapR, instantáneas y espejos. Planificación de un clúster en el contexto de MapR. Comparación de MapR con otras distribuciones y Apache Hadoop. MapR y la implementación del clúster. Configuración y administración del clúster: Gestión de servicios, nodos, instantáneas, volúmenes de espejo y clústeres remotos. Comprensión y gestión de nodos. Comprensión de los componentes de Hadoop, Instalación de componentes de Hadoop junto con MapR Services. Acceso a los datos en el clúster, incluyendo a través de NFS Administración de servicios y nodos. Gestión de datos mediante el uso de volúmenes, administración de usuarios y grupos, gestión y asignación de funciones a nodos, puesta en marcha de la clausura de nodos, administración de clústeres y supervisión de rendimiento, configuración / análisis y monitorización de métricas para supervisar el rendimiento, configurar y administrar la seguridad MapR. Entender y trabajar con M7- Almacenamiento nativo para tablas MapR. Configuración del clúster y ajuste para un rendimiento óptimo. Actualización de clústeres e integración con otras configuraciones: Actualización de la versión de software de MapR y tipos de actualización. Configuración del clúster Mapr para acceder al clúster HDFS. Configuración del cluster MapR en Amazon Elastic Mapreduce. Todos los temas anteriores incluyen demostraciones y sesiones de práctica para que los estudiantes tengan experiencia práctica de la tecnología.
ApacheIgnite Apache Ignite: Improve speed, scale and availability with in-memory computing 14 horas Apache Ignite is an in-memory computing platform that sits between the application and data layer to improve speed, scale and availability. In this instructor-led, live training, participants will learn the principles behind persistent and pure in-memory storage as they step through the creation of a sample in-memory computing project. By the end of this training, participants will be able to: Use Ignite for in-memory, on-disk persistence as well as a purely distributed in-memory database Achieve persistence without syncing data back to a relational database Use Ignite to carry out SQL and distributed joins Improve performance by moving data closer to the CPU, using RAM as a storage Spread data sets across a cluster to achieve horizontal scalability Integrate Ignite with RDBMS, NoSQL, Hadoop and machine learning processors Audience Developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
kdd Descubrir Conocimiento en Bases de Datos 21 horas El descubrimiento de conocimiento en bases de datos (KDD) es el proceso de descubrir conocimiento útil de una colección de datos. Las aplicaciones de la vida real para esta técnica de minería de datos incluyen marketing, detección de fraude, telecomunicaciones y fabricación. En este curso, presentamos los procesos involucrados en KDD y llevamos a cabo una serie de ejercicios para practicar la implementación de esos procesos. Audiencia      Analistas de datos o cualquier persona interesada en aprender a interpretar datos para resolver problemas Formato del curso      Después de una discusión teórica sobre KDD, el instructor presentará casos de la vida real que requieren la aplicación de KDD para resolver un problema. Los participantes prepararán, seleccionarán y limpiarán conjuntos de datos de muestra y utilizarán sus conocimientos previos sobre los datos para proponer soluciones basadas en los resultados de sus observaciones. Introducción      KDD vs minería de datos Establecer el dominio de la aplicación Establecer conocimiento previo relevante Comprender el objetivo de la investigación Crear un conjunto de datos de destino Limpieza y preprocesamiento de datos Reducción de datos y proyección Elegir la tarea de minería de datos Elegir los algoritmos de minería de datos Interpretando los patrones minados
bigdatar Programming with Big Data in R 21 horas Introduction to Programming Big Data with R (bpdR) Setting up your environment to use pbdR Scope and tools available in pbdR Packages commonly used with Big Data alongside pbdR Message Passing Interface (MPI) Using pbdR MPI 5 Parallel processing Point-to-point communication Send Matrices Summing Matrices Collective communication Summing Matrices with Reduce Scatter / Gather Other MPI communications Distributed Matrices Creating a distributed diagonal matrix SVD of a distributed matrix Building a distributed matrix in parallel Statistics Applications Monte Carlo Integration Reading Datasets Reading on all processes Broadcasting from one process Reading partitioned data Distributed Regression Distributed Bootstrap
datashrinkgov Data Shrinkage para el Gobierno 14 horas Por qué reducir los datos? Bases de datos relacionales Introducción Agregación y desagregación Normalización y desnormalización Valores nulos y ceros Datos de unión Complejo se une Análisis de conglomerados Aplicaciones Fortalezas y debilidades Medición de la distancia Agrupación jerárquica K-medios y derivados Aplicaciones en el Gobierno Análisis factorial Conceptos Análisis factorial exploratorio Análisis factorial confirmatorio Análisis de componentes principales Análisis por correspondencia Software Aplicaciones en el Gobierno Análisis predictivo Líneas de tiempo y convenciones de nomenclatura Muestras de retención Pesos de evidencia Valor informativo Demostración de construcción de Scorecard usando una hoja de cálculo Regresión en el análisis predictivo Regresión logística en análisis predictivo Árboles de decisión en el análisis predictivo Redes neuronales Precisión de la medición Aplicaciones en el Gobierno
bigddbsysfun Big Data & Fundamentos de Sistemas de Bases de Datos 14 horas El curso forma parte del conjunto de habilidades de Data Scientist (Dominio: Datos y Tecnología). Conceptos de Data Warehousing ¿Qué es Data Ware House? Diferencia entre OLTP y Data Ware Housing Adquisición de datos Extracción de datos Transformación de datos. Carga de datos Data marts Dependiente vs Independiente Mart de datos Diseño de la base de datos Conceptos de prueba ETL: Introducción. Ciclo de vida del desarrollo de programas. Metodologías de ensayo. Prueba ETL Proceso de flujo de trabajo. ETL Testing Responsibilities in Data etapa. Fundamentos de datos grandes Big Data y su papel en el mundo corporativo Las fases de desarrollo de una estrategia de Big Data dentro de una corporación Explicar la lógica subyacente de un enfoque holístico de Big Data Componentes necesarios en una plataforma de datos grande Gran solución de almacenamiento de datos Límites de las tecnologías tradicionales Descripción general de los tipos de bases de datos Bases de datos NoSQL Hadoop Mapa reducido Apache Spark
datameer Datameer for Data Analysts 14 horas Datameer is a business intelligence and analytics platform built on Hadoop. It allows end-users to access, explore and correlate large-scale, structured, semi-structured and unstructured data in an easy-to-use fashion. In this instructor-led, live training, participants will learn how to use Datameer to overcome Hadoop's steep learning curve as they step through the setup and analysis of a series of big data sources. By the end of this training, participants will be able to: Create, curate, and interactively explore an enterprise data lake Access business intelligence data warehouses, transactional databases and other analytic stores Use a spreadsheet user-interface to design end-to-end data processing pipelines Access pre-built functions to explore complex data relationships Use drag-and-drop wizards to visualize data and create dashboards Use tables, charts, graphs, and maps to analyze query results Audience Data analysts Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
scylladb Base de Datos Scylla 21 horas Scylla es una tienda de datos NoSQL distribuida de código abierto. Es compatible con Apache Cassandra pero tiene un rendimiento significativamente más alto y latencias más bajas. En este curso, los participantes aprenderán sobre las características y la arquitectura de Scylla mientras obtienen experiencia práctica con la configuración, administración, monitoreo y resolución de problemas de Scylla. Audiencia Administradores de bases Desarrolladores Ingenieros de sistema Formato del curso El curso es interactivo e incluye discusiones sobre los principios y enfoques para implementar y administrar bases de datos y clústeres distribuidos por Scylla. El curso incluye un componente pesado de ejercicios prácticos y práctica. Introducción a Scylla Instalando y ejecutando Scylla Comprender las bases de datos distribuidas El modelo de datos y la arquitectura de Scylla Trabajando con CQL (lenguaje de consulta de Cassandra) Configurando un cluster Scylla Herramientas de Scylla Administración de base de datos Solución de problemas de Scylla
psr Introduction to Recommendation Systems 7 horas Audience Marketing department employees, IT strategists and other people involved in decisions related to the design and implementation of recommender systems. Format Short theoretical background follow by analysing working examples and short, simple exercises. Challenges related to data collection Information overload Data types (video, text, structured data, etc...) Potential of the data now and in the near future Basics of Data Mining Recommendation and searching Searching and Filtering Sorting Determining weights of the search results Using Synonyms Full-text search Long Tail Chris Anderson idea Drawbacks of Long Tail Determining Similarities Products Users Documents and web sites Content-Based Recommendation i measurement of similarities Cosine distance The Euclidean distance vectors TFIDF and frequency of terms Collaborative filtering Community rating Graphs Applications of graphs  Determining similarity of graphs Similarity between users Neural Networks Basic concepts of Neural Networks Training Data and Validation Data Neural Network examples in recommender systems How to encourage users to share their data Making systems more comfortable Navigation Functionality and UX Case Studies Popularity of recommender systems and their problems Examples
matlab2 Fundamentos de MATLAB 21 horas Este curso de tres días proporciona una integración exhaustiva para el MATLAB técnico de la técnica de comparación. El curso está diseñado para los usuarios finales y aquellos que buscan la revisión. En el prior de programación de la experiencia o el conocimiento de MATLAB es. Los temas de análisis de fecha, visualización, modelado y programación se exploran en todo el curso. Los temas incluyen: Working with the MATLAB interfaz de usuario Introducir comandos y crear variables Analice vectores y matrices Visualización vectorial y matriz data Trabajar con archivos de fecha Working with data types Automatización de comandos con secuencias de comandos Los programas de escritura con el control de flujo y de flujo Funciones de escritura Parte 1 Una breve introducción a MATLAB Objetivos: Ofrecer una visión general de lo que MATLAB es, en qué consiste y qué puede hacer por usted Un ejemplo: C vs. MATLAB Descripción del producto MATLAB Campos de aplicación de MATLAB ¿Qué MATLAB puede hacer por usted? El esquema del curso Trabajar con la interfaz de usuario de MATLAB Objetivo: Obtener una introducción a las principales características del entorno de diseño integrado MATLAB y sus interfaces de usuario. Obtenga una visión general de los temas del curso. Interfaz MATALB Lectura de datos desde un archivo Guardar y cargar variables Trazado de datos Personalización de parcelas Cálculo de estadísticas y línea de mejor ajuste Exportación de gráficos para su uso en otras aplicaciones Variables y expresiones Objetivo: Introduzca comandos MATLAB, con énfasis en la creación y acceso a datos en variables. Introducción de comandos Creación de variables Obteniendo ayuda Acceso y modificación de valores en variables Creación de variables de carácter Análisis y Visualización con Vectores Objetivo: Realizar cálculos matemáticos y estadísticos con vectores, y crear visualizaciones básicas. Ver cómo la sintaxis de MATLAB permite cálculos en conjuntos de datos enteros con un solo comando. Cálculos con vectores Trazado de vectores Opciones básicas de trazado Anotar parcelas Análisis y visualización con matrices Objetivo: Utilizar matrices como objetos matemáticos o como colecciones de datos (vectoriales). Comprender el uso apropiado de la sintaxis de MATLAB para distinguir entre estas aplicaciones. Tamaño y dimensionalidad Cálculos con matrices Estadísticas con datos de matriz Trazado de varias columnas Reajuste e indexación lineal Arrays multidimensionales Parte 2 Automatización de comandos con secuencias de comandos Objetivo: Recopilar comandos MATLAB en scripts para facilitar la reproducción y la experimentación. A medida que aumenta la complejidad de sus tareas, entrar secuencias largas de comandos en la ventana de comandos se vuelve poco práctico. Un ejemplo de modelado El historial de comandos Creación de archivos de script Ejecutar secuencias de comandos Comentarios y código Cells Publicación de scripts Trabajar con archivos de datos Objetivo: Traer datos en MATLAB desde archivos formateados. Debido a que los datos importados pueden ser de una amplia variedad de tipos y formatos, se da énfasis al trabajo con matrices de celdas y formatos de fecha. Importación de datos Tipos de datos mixtos Arrays de celdas Conversiones entre numerales, cadenas y celdas Exportación de datos Múltiples gráficos vectoriales Objetivo: Hacer parcelas más complejas de vectores, tales como parcelas múltiples, y utilizar técnicas de manipulación de color y cadena para producir representaciones visuales llamativas de los datos. Estructura gráfica Múltiples figuras, ejes y parcelas Trazado de ecuaciones Usando color Personalización de parcelas Lógica y control de flujo Objetivo: Utilizar operaciones lógicas, variables y técnicas de indexación para crear código flexible que pueda tomar decisiones y adaptarse a diferentes situaciones. Explorar otras construcciones de programación para la repetición de secciones de código y construcciones que permiten la interacción con el usuario. Operaciones lógicas y variables Indización lógica Construcciones de programación Control de flujo Bucles Visualización de Matriz e Imagen Objetivo: Visualizar imágenes y datos de matriz en dos o tres dimensiones. Explorar la diferencia en la visualización de imágenes y la visualización de datos de matriz mediante imágenes. Interpolación dispersa usando datos vectoriales y de matriz Visualización de matriz tridimensional Visualización de matriz bidimensional Imágenes indexadas y colormaps Imágenes de color verdadero Parte 3 Análisis de los datos Objetivo: Realizar tareas típicas de análisis de datos en MATLAB, incluyendo el desarrollo y ajuste de modelos teóricos a datos de la vida real. Esto conduce naturalmente a una de las características más poderosas de MATLAB: resolver sistemas lineales de ecuaciones con un solo comando. Tratar los datos que faltan Correlación Suavizado Análisis espectral y FFTs Resolución de sistemas lineales de ecuaciones Funciones de escritura Objetivo: Incrementar la automatización mediante la encapsulación de tareas modulares como funciones definidas por el usuario. Comprender cómo el MATLAB resuelve referencias a archivos y variables. Por qué funciona? Creación de funciones Añadir comentarios Llamando subfunciones Espacios de trabajo Subfunciones Camino y precedencia Tipos de datos Objetivo: Explorar tipos de datos, centrándose en la sintaxis para crear variables y acceder a elementos de matriz, y discutir métodos para convertir entre tipos de datos. Los tipos de datos difieren en el tipo de datos que pueden contener y la forma en que se organizan los datos. Tipos de datos MATLAB Enteros Estructuras Conversión de tipos E / S de archivo Objetivo: Explorar las funciones de importación y exportación de datos de bajo nivel en MATLAB que permiten un control preciso sobre el texto y la E / S de archivos binarios. Estas funciones incluyen la búsqueda de textos, que proporciona un control preciso de la lectura de archivos de texto. Abrir y cerrar archivos Leer y escribir archivos de texto Lectura y escritura de archivos binarios Tenga en cuenta que la entrega real puede estar sujeta a discrepancias menores del esquema anterior sin notificación previa. Conclusión Tenga en cuenta que la entrega real puede estar sujeta a discrepancias menores del esquema anterior sin notificación previa. Objetivos: Resumir lo que hemos aprendido Un resumen del curso Otros cursos futuros sobre MATLAB Tenga en cuenta que el curso puede estar sujeto a pocas discrepancias menores cuando se entrega sin notificaciones previas.
rprogda Programación R para el Análisis de Datos 14 horas Este curso es parte del conjunto de habilidades de Data Scientist (Dominio: Datos y Tecnología) Introducción y preliminares Haciendo R más amigable, R y GUIs disponibles Rstudio Software y documentación relacionados R y estadísticas Uso R interactivamente Una sesión introductoria Obtención de ayuda con funciones y funciones R, sensibilidad de mayúsculas y minúsculas, etc. Recuperación y corrección de comandos anteriores Ejecutar comandos o desviar la salida a un archivo Permanencia de datos y eliminación de objetos Manipulaciones sencillas; números y vectores Vectores y asignación Aritmética vectorial Generación de secuencias regulares Vectores lógicos Valores faltantes Vectores de caracteres Vectores de índice; seleccionar y modificar subconjuntos de un conjunto de datos Otros tipos de objetos Objetos, sus modos y atributos Atributos intrínsecos: modo y longitud Cambiar la longitud de un objeto Obtención y configuración de atributos La clase de un objeto Matrices y matrices Matrices Indexación de matrices. Subsecciones de una matriz Matrices de índice La función array () El producto externo de dos matrices Transposición generalizada de una matriz Instalaciones Matrix Multiplicación de matrices Ecuaciones lineales e inversión Valores propios y vectores propios Descomposición y determinantes del valor singular Ajuste de mínimos cuadrados y descomposición QR Formando matrices particionadas, cbind () y rbind () La función de concatenación, (), con arrays Tablas de frecuencia de los factores Listas y marcos de datos Liza Construir y modificar listas Concatenar listas Marcos de datos Creación de marcos de datos attach () y detach () Trabajar con marcos de datos Adjuntar listas arbitrarias Gestión de la ruta de búsqueda Manipulación de datos Selección, subconjunto de observaciones y variables Filtrado, agrupación Recodificación, transformaciones Agregación, combinación de conjuntos de datos Manipulación de caracteres, paquete stringr Lectura de datos Archivos Txt Archivos CSV XLS, XLSX archivos SPSS, SAS, Stata, ... y otros formatos de datos Exportar datos a txt, csv y otros formatos Acceso a datos desde bases de datos utilizando lenguaje SQL Distribuciones de probabilidad R como un conjunto de cuadros estadísticos Examinar la distribución de un conjunto de datos Pruebas de una y dos muestras Agrupación, bucles y ejecución condicional Expresiones agrupadas Declaraciones de control Ejecución condicional: si declaraciones La ejecución repetitiva: para los bucles, repetición y mientras Escribir sus propias funciones Ejemplos sencillos Definición de nuevos operadores binarios Argumentos y valores predeterminados El argumento Asignaciones dentro de las funciones Ejemplos más avanzados Factores de eficiencia en los diseños de bloques Eliminar todos los nombres de un conjunto impreso Integración numérica recursiva Alcance Personalización del entorno Clases, funciones genéricas y orientación a objetos Procedimientos gráficos Comandos de trazado de alto nivel La función plot () Visualización de datos multivariados Mostrar gráficos Argumentos a las funciones de trazado de alto nivel Gráficos de visualización básicos Relaciones multivariantes con el paquete de celosía y ggplot Uso de parámetros gráficos Lista de parámetros gráficos Informes automatizados e interactivos Combinación de salida de R con texto  
dataar Análisis de Datos con R 21 horas R es un entorno de código abierto muy popular para la informática estadística, análisis de datos y gráficos. Este curso introduce el lenguaje de programación R a los estudiantes. Cubre los fundamentos del lenguaje, las bibliotecas y los conceptos avanzados. Análisis de datos y gráficos avanzados con datos del mundo real. Audiencia Desarrolladores / análisis de datos Duración 3 días Formato Conferencias y prácticas Día Uno: Bases del Idioma curso introductorio Acerca de la ciencia de los datos Definición de la ciencia de los datos Proceso de hacer la ciencia de los datos. Introducción al lenguaje R Variables y tipos Estructuras de control (Loops / Conditionals) R Escalares, vectores y matrices Definición de Vectores R Matricias Manipulación de texto y texto Tipo de datos de caracteres Archivo IO Liza Funciones Introducción a las funciones Cierres funciones lapply / sapply Marcos de datos Laboratorios para todas las secciones Dos: Programación Intermedia RDía ​​​​​​​DataFrames y E / S de archivos Leer datos de archivos Preparación de datos Conjuntos de datos incorporados Visualización Paquete de gráficos plot () / barplot () / hist () / boxplot () / diagrama de dispersión Mapa de calor Paquete ggplot2 (qplot (), ggplot ()) Exploración con Dplyr Laboratorios para todas las secciones Día 3: Programación Avanzada Con R Modelado estadístico con R Funciones estadísticas Tratar con NA Distribuciones (Binomial, Poisson, Normal) Regresión Introducción a las regresiones lineales Recomendaciones Procesamiento de texto (paquete tm / Wordclouds) Clustering Introducción al Clustering KMeans Clasificación Introducción a la clasificación Naive Bayes Árboles de decisión Entrenamiento usando paquete de caret Evaluación de algoritmos R y Big Data Conexión de R a bases de datos Gran ecosistema de datos Laboratorios para todas las secciones
druid Druid:Construir un Sistema Rápido y en Tiempo Real de Análisis de Datos 21 horas Druid es un almacén de datos distribuido orientado a columnas y de código abierto escrito en Java. Fue diseñado para ingerir rápidamente cantidades masivas de datos de eventos y ejecutar consultas OLAP de baja latencia en esos datos. Druid se usa comúnmente en aplicaciones de inteligencia empresarial para analizar grandes volúmenes de datos históricos y en tiempo real. También es adecuado para alimentar cuadros de mandos analíticos rápidos e interactivos para usuarios finales. Druid es utilizado por compañías como Alibaba, Airbnb, Cisco, eBay, Netflix, Paypal y Yahoo. En este curso, exploramos algunas de las limitaciones de las soluciones de almacenamiento de datos y discutimos cómo Druid puede complementar esas tecnologías para formar una pila de análisis de transmisión flexible y escalable. Analizamos muchos ejemplos, ofreciendo a los participantes la oportunidad de implementar y probar soluciones basadas en Druid en un entorno de laboratorio. Audiencia     Desarrolladores de aplicaciones     Ingenieros de software     Consultores técnicos     Profesionales de DevOps     Ingenieros de arquitectura Formato del curso     Conferencia parcial, discusión parcial, práctica práctica intensa, pruebas ocasionales para medir la comprensión Introducción Instalando e iniciando Druid Arquitectura y diseño druida Ingestión de datos de eventos en tiempo real Sharding e indexación Cargando datos Consultar datos Visualización de datos Ejecutando un cluster distribuido Druida + Colmena Apache Druida + Apache Kafka Druida + otros Solución de problemas Tareas administrativas
68780 Apache Spark 14 horas Why Spark? Problems with Traditional Large-Scale Systems Introducing Spark Spark Basics What is Apache Spark? Using the Spark Shell Resilient Distributed Datasets (RDDs) Functional Programming with Spark Working with RDDs RDD Operations Key-Value Pair RDDs MapReduce and Pair RDD Operations The Hadoop Distributed File System Why HDFS? HDFS Architecture Using HDFS Running Spark on a Cluster Overview A Spark Standalone Cluster The Spark Standalone Web UI Parallel Programming with Spark RDD Partitions and HDFS Data Locality Working With Partitions Executing Parallel Operations Caching and Persistence RDD Lineage Caching Overview Distributed Persistence Writing Spark Applications Spark Applications vs. Spark Shell Creating the SparkContext Configuring Spark Properties Building and Running a Spark Application Logging Spark, Hadoop, and the Enterprise Data Center Overview Spark and the Hadoop Ecosystem Spark and MapReduce Spark Streaming Spark Streaming Overview Example: Streaming Word Count Other Streaming Operations Sliding Window Operations Developing Spark Streaming Applications Common Spark Algorithms Iterative Algorithms Graph Analysis Machine Learning Improving Spark Performance Shared Variables: Broadcast Variables Shared Variables: Accumulators Common Performance Issues
rintrob Introducción R para Biólogos 28 horas I. Introducción y preliminares 1. Información general Haciendo R más amigable, R y GUIs disponibles Rstudio Software y documentación relacionados R y estadísticas Uso de R de forma interactiva Una sesión introductoria Obtención de ayuda con funciones y funciones R, sensibilidad de mayúsculas y minúsculas, etc. Recuperación y corrección de comandos anteriores Ejecutar comandos o desviar la salida a un archivo Permanencia de datos y eliminación de objetos Buenas prácticas de programación: guiones autónomos, buena legibilidad, p. Scripts estructurados, documentación, reducción Instalar paquetes; CRAN y Bioconductor 2. Lectura de datos Archivos Txt (read.delim) Archivos CSV 3. Manipulaciones sencillas; Números y vectores + arrays Vectores y asignación Aritmética vectorial Generación de secuencias regulares Vectores lógicos Valores faltantes Vectores de caracteres Vectores índice; Seleccionar y modificar subconjuntos de un conjunto de datos Matrices Indexación de matrices. Subsecciones de una matriz Matrices de índice La función array () + operaciones simples en arrays, p. Multiplicación, transposición Otros tipos de objetos 4. Listas y marcos de datos Liza Construir y modificar listas Concatenar listas Marcos de datos Realización de marcos de datos Trabajar con marcos de datos Adjuntar listas arbitrarias Gestión de la ruta de búsqueda 5. Manipulación de datos Selección, subconjunto de observaciones y variables Filtrado, agrupación Recodificación, transformaciones Agregación, combinación de conjuntos de datos Formando matrices particionadas, cbind () y rbind () La función de concatenación, (), con arrays Manipulación de caracteres, paquete stringr Introducción corta en grep y regexpr 6. Más información sobre la lectura de datos XLS, XLSX archivos Paquetes readr y readxl SPSS, SAS, Stata, ... y otros formatos de datos Exportar datos a txt, csv y otros formatos 6. Agrupación, bucles y ejecución condicional Expresiones agrupadas Declaraciones de control Ejecución condicional: si declaraciones Ejecución repetitiva: para bucles, repetición y Introducir en aplique, aplique, aplique, aplique 7. Funciones Creación de funciones Argumentos opcionales y valores predeterminados Número variable de argumentos Alcance y sus consecuencias 8. Gráficos simples en R Creación de un gráfico Parcelas de densidad Parcelas de puntos Parcelas de Bar Líneas gráficas Gráficos circulares Boxplots Gráfico de dispersión Combinación de parcelas II. Análisis estadístico en R 1. Distribuciones de probabilidad R como conjunto de cuadros estadísticos Examinar la distribución de un conjunto de datos 2. Pruebas de hipótesis Pruebas sobre una media poblacional Prueba de Razón de Verosimilitud Pruebas de una y dos muestras Prueba Chi-Cuadrada de la Bondad de Ajuste Estadística de una muestra de Kolmogorov-Smirnov Wilcoxon Signed-Rank Test Prueba de dos muestras Prueba de suma de rangos de Wilcoxon Prueba de Mann-Whitney Prueba Kolmogorov-Smirnov 3. Pruebas Múltiples de Hipótesis Error de tipo I y FDR Curvas ROC y AUC Procedimientos de Pruebas Múltiples (BH, Bonferroni, etc.) 4. Modelos de regresión lineal Funciones genéricas para extraer la información del modelo Actualización de modelos adaptados Modelos lineales generalizados Familias La función glm () Clasificación Regresión logística Análisis Discriminante Lineal Aprendizaje sin supervisión Análisis de componentes principales Clustering Métodos (k-medios, agrupación jerárquica, k-medoids) 5. Análisis de supervivencia (paquete de supervivencia) Objetos de supervivencia en r Kaplan-Meier, prueba log-rank, regresión paramétrica Bandas de confianza Análisis de datos censurados (intervalo censurado) Modelos Cox PH, covariables constantes Cox PH modelos, covariables dependientes del tiempo Simulación: comparación de modelos (comparación de modelos de regresión)   6. Análisis de la varianza ANOVA unidireccional Clasificación bidireccional de ANOVA MANOVA   III. Problemas de trabajo en bioinformática Breve introducción al paquete limma Flujo de trabajo de análisis de datos de microarrays Descarga de datos de GEO: http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE1397 Procesamiento de datos (QC, normalización, expresión diferencial) Trama de volcán Custering ejemplos + heatmaps
dmmlr Minería de Datos y Aprendizaje Automático con R 14 horas Introducción a la minería de datos y el aprendizaje automático Aprendizaje estadístico vs. aprendizaje automático Iteración y evaluación Compensación entre sesgo y variación Regresión Regresión lineal Generalizaciones y no linealidad Ceremonias Clasificación Actualización bayesiana Naive Bayes Dicriminant analysis Regresión logística K-Vecinos más cercanos Soporte de máquinas vectoriales Redes neuronales Árboles de decisión Ceremonias Validación cruzada y re-muestreo Enfoques de validación cruzada Oreja Ceremonias Aprendizaje sin supervisión K-significa agrupación Ejemplos Desafíos del aprendizaje sin supervisión y más allá de K-means Temas avanzados Modelos de Ensemble Modelos mixtos Aumento Ejemplos Reducción multidimensional Análisis factorial Análisis de componentes principales Ejemplos
datamin Minería de Datos 21 horas Curso puede ser proporcionado con cualquier herramienta, incluyendo libre de código abierto de minería de datos de software y aplicaciones Introducción La minería de datos como paso de análisis del proceso KDD ("Knowledge Discovery in Databases") Subcampo de informática Descubriendo patrones en grandes conjuntos de datos Fuentes de métodos Inteligencia artificial Aprendizaje automático Estadística Sistemas de base de datos Qué implica? Aspectos de base de datos y gestión de datos Preprocesamiento de datos Consideraciones de modelo e inferencia Métricas de interés Consideraciones de complejidad Post-procesamiento de estructuras descubiertas Visualización Actualización en línea Tareas principales de minería de datos Análisis automático o semiautomático de grandes cantidades de datos Extracción de patrones interesantes desconocidos anteriormente Grupos de registros de datos (análisis de conglomerados) Registros inusuales (detección de anomalías) Dependencias (minería de reglas de asociación)​​ Minería de datos Detección de anomalías (Detección de valores atípicos / cambios / desviaciones) Aprendizaje de reglas de asociación (Modelado de dependencias) Clustering Clasificación Regresión Resumen Uso y aplicaciones Peligro peligroso Analítica conductual Análisis de negocio Proceso Estándar de Industria Transversal para la Minería de Datos Análisis de clientes Extracción de datos en la agricultura Extracción de datos en meteorología Minería de datos educativos Agrupamiento genético humano Ataque de inferencia Java Data Mining Inteligencia de código abierto Análisis de trayectoria (computación) Inteligencia de negocios reactiva Dragado de datos, pesca de datos, snooping de datos  
matlabpredanalytics Matlab for Predictive Analytics 21 horas Predictive analytics is the process of using data analytics to make predictions about the future. This process uses data along with data mining, statistics, and machine learning techniques to create a predictive model for forecasting future events. In this instructor-led, live training, participants will learn how to use Matlab to build predictive models and apply them to large sample data sets to predict future events based on the data. By the end of this training, participants will be able to: Create predictive models to analyze patterns in historical and transactional data Use predictive modeling to identify risks and opportunities Build mathematical models that capture important trends Use data to from devices and business systems to reduce waste, save time, or cut costs Audience Developers Engineers Domain experts Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Introduction     Predictive analytics in finance, healthcare, pharmaceuticals, automotive, aerospace, and manufacturing Overview of Big Data concepts Capturing data from disparate sources What are data-driven predictive models? Overview of statistical and machine learning techniques Case study: predictive maintenance and resource planning Applying algorithms to large data sets with Hadoop and Spark Predictive Analytics Workflow Accessing and exploring data Preprocessing the data Developing a predictive model Training, testing and validating a data set Applying different machine learning approaches ( time-series regression, linear regression, etc.) Integrating the model into existing web applications, mobile devices, embedded systems, etc. Matlab and Simulink integration with embedded systems and enterprise IT workflows Creating portable C and C++ code from MATLAB code Deploying predictive applications to large-scale production systems, clusters, and clouds Acting on the results of your analysis Next steps: Automatically responding to findings using Prescriptive Analytics Closing remarks
68736 Hadoop for Developers (2 days) 14 horas Introduction What is Hadoop? What does it do? How does it do it? The Motivation for Hadoop Problems with Traditional Large-Scale Systems Introducing Hadoop Hadoopable Problems Hadoop: Basic Concepts and HDFS The Hadoop Project and Hadoop Components The Hadoop Distributed File System Introduction to MapReduce MapReduce Overview Example: WordCount Mappers Reducers Hadoop Clusters and the Hadoop Ecosystem Hadoop Cluster Overview Hadoop Jobs and Tasks Other Hadoop Ecosystem Components Writing a MapReduce Program in Java Basic MapReduce API Concepts Writing MapReduce Drivers, Mappers, and Reducers in Java Speeding Up Hadoop Development by Using Eclipse Differences Between the Old and New MapReduce APIs Writing a MapReduce Program Using Streaming Writing Mappers and Reducers with the Streaming API Unit Testing MapReduce Programs Unit Testing The JUnit and MRUnit Testing Frameworks Writing Unit Tests with MRUnit Running Unit Tests Delving Deeper into the Hadoop API Using the ToolRunner Class Setting Up and Tearing Down Mappers and Reducers Decreasing the Amount of Intermediate Data with Combiners Accessing HDFS Programmatically Using The Distributed Cache Using the Hadoop API’s Library of Mappers, Reducers, and Partitioners Practical Development Tips and Techniques Strategies for Debugging MapReduce Code Testing MapReduce Code Locally by Using LocalJobRunner Writing and Viewing Log Files Retrieving Job Information with Counters Reusing Objects Creating Map-Only MapReduce Jobs Partitioners and Reducers How Partitioners and Reducers Work Together Determining the Optimal Number of Reducers for a Job Writing Customer Partitioners Data Input and Output Creating Custom Writable and Writable-Comparable Implementations Saving Binary Data Using SequenceFile and Avro Data Files Issues to Consider When Using File Compression Implementing Custom InputFormats and OutputFormats Common MapReduce Algorithms Sorting and Searching Large Data Sets Indexing Data Computing Term Frequency — Inverse Document Frequency Calculating Word Co-Occurrence Performing Secondary Sort Joining Data Sets in MapReduce Jobs Writing a Map-Side Join Writing a Reduce-Side Join Integrating Hadoop into the Enterprise Workflow Integrating Hadoop into an Existing Enterprise Loading Data from an RDBMS into HDFS by Using Sqoop Managing Real-Time Data Using Flume Accessing HDFS from Legacy Systems with FuseDFS and HttpFS An Introduction to Hive, Imapala, and Pig The Motivation for Hive, Impala, and Pig Hive Overview Impala Overview Pig Overview Choosing Between Hive, Impala, and Pig An Introduction to Oozie Introduction to Oozie Creating Oozie Workflows
cpb100 CPB100: Google Cloud Platform Big Data & Fundamentos de Aprendizaje Automático 8 horas Este curso dirigido por un instructor de un día introduce a los participantes a las grandes capacidades de datos de Google Cloud Platform. A través de una combinación de presentaciones, demostraciones y laboratorios prácticos, los participantes obtienen una visión general de la plataforma Google Cloud y una vista detallada de las capacidades de procesamiento de datos y de aprendizaje automático. Este curso muestra la facilidad, flexibilidad y potencia de las grandes soluciones de datos en Google Cloud Platform. Este curso enseña a los participantes las siguientes habilidades: Identifique el propósito y el valor de los productos clave de Big Data y de aprendizaje automático en Google Cloud Platform. Utilice Cloud SQL y Cloud Dataproc para migrar las cargas de trabajo existentes de MySQL y Hadoop / Pig / Spark / Hive a Google Cloud Platform. Emplear BigQuery y Cloud Datalab para realizar análisis de datos interactivos. Entrene y utilice una red neuronal usando TensorFlow. Emplear API de ML. Elija entre diferentes productos de procesamiento de datos en Google Cloud Platform. Esta clase está destinada a lo siguiente: Analistas de datos, Científicos de datos, Analistas de negocios comenzando con Google Cloud Platform. Responsables del diseño de oleoductos y arquitecturas para el procesamiento de datos, creación y mantenimiento de modelos de aprendizaje y modelos estadísticos, consulta de conjuntos de datos, visualización de resultados de consultas y creación de informes. Ejecutivos y responsables de la toma de decisiones de TI que evalúan Google Cloud Platform para su uso por los científicos de datos. El curso incluye presentaciones, demostraciones y laboratorios prácticos. Módulo 1: Introducción a Google Cloud Platform Visión general de los fundamentos de la plataforma Google. Productos y tecnología de datos de Google Cloud Platform. Escenarios de uso. Laboratorio: regístrate en Google Cloud Platform. Módulo 2: Fundamentos de Computación y Almacenamiento CPUs a petición (Compute Engine). Un sistema de archivos global (Cloud Storage). CloudShell. Laboratorio: Configure una tubería de procesamiento de datos Ingest-Transform-Publish. Módulo 3: Análisis de datos en la nube Escalones hacia la nube. Cloud SQL: su base de datos SQL en la nube. Laboratorio: Importación de datos en CloudSQL y ejecución de consultas. Chispa en Dataproc. Laboratorio: Recomendaciones de Aprendizaje Automático con SparkML. Módulo 4: Análisis de datos escalares Rápido acceso aleatorio. Datalab. BigQuery. Laboratorio: Construye el conjunto de datos de aprendizaje de la máquina. Aprendizaje de la máquina con TensorFlow. Laboratorio: Entrene y utilice la red neuronal. Modelos completamente construidos para necesidades comunes. Laboratorio: Emplear API de ML Módulo 5: Arquitecturas de procesamiento de datos Arquitecturas orientadas a mensajes con Pub / Sub. Creación de tuberías con Dataflow. Arquitectura de referencia para el procesamiento de datos en tiempo real y por lotes. Módulo 6: Resumen ¿Por qué GCP? A dónde ir desde aquí Recursos adicionales
altdomexp Pericia en el Dominio de Analytics 7 horas Este curso forma parte del conjunto de habilidades de Data Scientist (Dominio: Analytics Domain Expertise). Dominio del dominio de Google Analytics Recapitulación de la información y las aplicaciones de Big Data Analytics Estrategia y aplicación de Big Data Estudios de caso
datavault Data Vault: Building a Scalable Data Warehouse 28 horas Data vault modeling is a database modeling technique that provides long-term historical storage of data that originates from multiple sources. A data vault stores a single version of the facts, or "all the data, all of the time". Its flexible, scalable, consistent and adaptable design encompasses the best aspects of 3rd normal form (3NF) and star schema. In this instructor-led, live training, participants will learn how to build a Data Vault. By the end of this training, participants will be able to: Understand the architecture and design concepts behind Data Vault 2.0, and its interaction with Big Data, NoSQL and AI. Use data vaulting techniques to enable auditing, tracing, and inspection of historical data in a data warehouse Develop a consistent and repeatable ETL (Extract, Transform, Load) process Build and deploy highly scalable and repeatable warehouses Audience Data modelers Data warehousing specialist Business Intelligence specialists Data engineers Database administrators Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Introduction     The shortcomings of existing data warehouse data modeling architectures     Benefits of Data Vault modeling Overview of Data Vault architecture and design principles     SEI / CMM / Compliance Data Vault applications     Dynamic Data Warehousing     Exploration Warehousing     In-Database Data Mining     Rapid Linking of External Information Data Vault components     Hubs, Links, Satellites Building a Data Vault Modeling Hubs, Links and Satellites Data Vault reference rules How components interact with each other Modeling and populating a Data Vault Converting 3NF OLTP to a Data Vault Enterprise Data Warehouse (EDW) Understanding load dates, end-dates, and join operations Business keys, relationships, link tables and join techniques Query techniques Load processing and query processing Overview of Matrix Methodology Getting data into data entities Loading Hub Entities Loading Link Entities Loading Satellites Using SEI/CMM Level 5 templates to obtain repeatable, reliable, and quantifiable results Developing a consistent and repeatable ETL (Extract, Transform, Load) process Building and deploying highly scalable and repeatable warehouses Closing remarks  
voldemort Voldemort: configuración de un almacén de datos distribuidos de clave-valor 14 horas Voldemort es un almacén de datos distribuidos de código abierto que está diseñado como una tienda de valores clave. Se utiliza en LinkedIn por numerosos servicios críticos que alimentan una gran parte del sitio. Este curso presentará la arquitectura y las capacidades de Voldomort y guiará a los participantes a través de la configuración y la aplicación de un almacén de datos distribuidos de valor clave. Audiencia      Desarrolladores de software      Administradores del sistema      Ingenieros de DevOps Formato del curso      Conferencia parcial, discusión parcial, práctica práctica intensa, pruebas ocasionales para medir la comprensión Introducción Comprender los sistemas distribuidos de almacenamiento de valores-clave Modelo de datos de Voldomort y arquitectura Descarga y configuración Operaciones de línea de comando Clientes y servidores Trabajando con Hadoop Configurar trabajos de compilación y inserción Reequilibrar una instancia de Voldemort Sirviendo datos computados por lotes a gran escala Usando la herramienta de administración La optimización del rendimiento
bigdarch Big Data Architect 35 horas Day 1 - provides a high-level overview of essential Big Data topic areas. The module is divided into a series of sections, each of which is accompanied by a hands-on exercise. Day 2 - explores a range of topics that relate analysis practices and tools for Big Data environments. It does not get into implementation or programming details, but instead keeps coverage at a conceptual level, focusing on topics that enable participants to develop a comprehensive understanding of the common analysis functions and features offered by Big Data solutions. Day 3 - provides an overview of the fundamental and essential topic areas relating to Big Data solution platform architecture. It covers Big Data mechanisms required for the development of a Big Data solution platform and architectural options for assembling a data processing platform. Common scenarios are also presented to provide a basic understanding of how a Big Data solution platform is generally used.  Day 4 - builds upon Day 3 by exploring advanced topics relatng to Big Data solution platform architecture. In particular, different architectural layers that make up the Big Data solution platform are introduced and discussed, including data sources, data ingress, data storage, data processing and security.  Day 5 - covers a number of exercises and problems designed to test the delegates ability to apply knowledge of topics covered Day 3 and 4.  Day 1 - Fundamental Big Data Understanding Big Data Fundamental Terminology & Concepts Big Data Business & Technology Drivers Traditional Enterprise Technologies Related to Big Data Characteristics of Data in Big Data Environments Dataset Types in Big Data Environments Fundamental Analysis and Analytics Machine Learning Types Business Intelligence & Big Data Data Visualization & Big Data Big Data Adoption & Planning Considerations Day 2 - Big Data Analysis & Technology Concepts Big Data Analysis Lifecycle (from business case evaluation to data analysis and visualization) A/B Testing, Correlation Regression, Heat Maps Time Series Analysis Network Analysis Spatial Data Analysis Classification, Clustering Outlier Detection Filtering (including collaborative filtering & content-based filtering) Natural Language Processing Sentiment Analysis, Text Analytics File Systems & Distributed File Systems, NoSQL Distributed & Parallel Data Processing, Processing Workloads, Clusters Cloud Computing & Big Data Foundational Big Data Technology Mechanisms Day 3 - Fundamental Big Data Architecture New Big Data Mechanisms, including ... Security Engine Cluster Manager  Data Governance Manager Visualization Engine Productivity Portal Data Processing Architectural Models, including ... Shared-Everything and Shared-Nothing Architectures Enterprise Data Warehouse and Big Data Integration Approaches, including ... Series Parallel Big Data Appliance Data Virtualization Architectural Big Data Environments, including ... ETL  Analytics Engine Application Enrichment Cloud Computing & Big Data Architectural Considerations, including ... how Cloud Delivery and Deployment Models can be used to host and process Big Data Solutions Day 4 - Advanced Big Data Architecture Big Data Solution Architectural Layers including ... Data Sources, Data Ingress and Storage, Event Stream Processing and Complex Event Processing, Egress, Visualization and Utilization, Big Data Architecture and Security, Maintenance and Governance Big Data Solution Design Patterns, including ... Patterns pertaining to Data Ingress, Data Wrangling, Data Storage, Data Processing, Data Analysis, Data Egress, Data Visualization Big Data Architectural Compound Patterns Day 5 - Big Data Architecture Lab Incorporates a set of detailed exercises that require delegates to solve various inter-related problems, with the goal of fostering a comprehensive understanding of how different data architecture technologies, mechanisms and techniques can be applied to solve problems in Big Data environments.
bigdatastore Big Data Solución de Almacenamiento - NoSQL 14 horas When traditional storage technologies don't handle the amount of data you need to store there are hundereds of alternatives. This course try to guide the participants what are alternatives for storing and analyzing Big Data and what are theirs pros and cons. This course is mostly focused on discussion and presentation of solutions, though hands-on exercises are available on demand. Límites de las tecnologías tradicionales Bases de datos SQL Redundancia: réplicas y clusters Restricciones Velocidad Descripción general de los tipos de bases de datos Bases de datos de objetos Tienda de documentos Bases de datos en la nube Almacén de columnas anchas Bases de datos multidimensionales Bases de Datos Multivalor Bases de datos de secuencias y series de tiempo Bases de datos multimodales Bases de datos de gráficos Valor clave Bases de datos XML Distribuir sistemas de archivos Bases de datos populares de NoSQL MongoDB Cassandra Apache Hadoop Apache Spark Otras soluciones NewSQL Visión general de las soluciones disponibles Actuación Inconsciencias Almacenamiento de documentos / búsqueda optimizada Solr / Lucene / Elasticsearch Otras soluciones
kylin Apache Kylin: From classic OLAP to real-time data warehouse 14 horas Apache Kylin is an extreme, distributed analytics engine for big data. In this instructor-led live training, participants will learn how to use Apache Kylin to set up a real-time data warehouse. By the end of this training, participants will be able to: Consume real-time streaming data using Kylin Utilize Apache Kylin's powerful features, including snowflake schema support, a rich SQL interface, spark cubing and subsecond query latency Note We use the latest version of Kylin (as of this writing, Apache Kylin v2.0) Audience Big data engineers Big Data analysts Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
deckgl deck.gl: Visualizing Large-scale Geospatial Data 14 horas deck.gl is an open-source, WebGL-powered library for exploring and visualizing data assets at scale. Created by Uber, it is especially useful for gaining insights from geospatial data sources, such as data on maps. This instructor-led, live training introduces the concepts and functionality behind deck.gl and walks participants through the set up of a demonstration project. By the end of this training, participants will be able to: Take data from very large collections and turn it into compelling visual representations Visualize data collected from transportation and journey-related use cases, such as pick-up and drop-off experiences, network traffic, etc. Apply layering techniques to geospatial data to depict changes in data over time Integrate deck.gl with React (for Reactive programming) and Mapbox GL (for visualizations on Mapbox based maps). Understand and explore other use cases for deck.gl, including visualizing points collected from a 3D indoor scan, visualizing machine learning models in order to optimize their algorithms, etc. Audience Developers Data scientists Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
BigData_ Una introducción práctica al análisis de datos y Big Data 35 horas Los participantes que completen esta capacitación obtendrán una comprensión práctica y real de Big Data y sus tecnologías, metodologías y herramientas relacionadas. Los participantes tendrán la oportunidad de poner este conocimiento en práctica a través de ejercicios prácticos. La interacción grupal y la retroalimentación del instructor conforman un componente importante de la clase. El curso comienza con una introducción a los conceptos elementales de Big Data, luego avanza hacia los lenguajes de programación y las metodologías utilizadas para realizar el Análisis de datos. Finalmente, discutimos las herramientas y la infraestructura que permiten el almacenamiento de Big Data, el procesamiento distribuido y la escalabilidad. Audiencia Desarrolladores / programadores Consultores de TI Formato del curso Conferencia de parte, discusión en parte, práctica práctica e implementación, quicing ocasional para medir el progreso. Introducción al análisis de datos y Big Data ¿Qué hace que Big Data sea "grande"? Velocidad, Volumen, Variedad, Veracidad (VVVV) Límites al procesamiento de datos tradicional Procesamiento distribuido Análisis estadístico Tipos de análisis de aprendizaje automático Visualización de datos Idiomas utilizados para el análisis de datos Lenguaje R ¿Por qué R para el análisis de datos? Manipulación de datos, cálculo y visualización gráfica Pitón ¿Por qué Python para el análisis de datos? Manipulación, procesamiento, limpieza y crujido de datos Enfoques para el análisis de datos Análisis estadístico Análisis de series temporales Predicción con modelos de correlación y regresión Estadística Inferencial (estimación) Estadística descriptiva en conjuntos de Big Data (por ejemplo, cálculo de la media) Aprendizaje automático Aprendizaje supervisado vs no supervisado Clasificación y agrupamiento Estimando el costo de métodos específicos Filtración Procesamiento natural del lenguaje Procesando texto Subestimando el significado del texto Generación automática de texto Análisis de sentimiento / Análisis de tema Visión por computador Adquirir, procesar, analizar y comprender imágenes Reconstruyendo, interpretando y entendiendo escenas 3D Usar datos de imagen para tomar decisiones Infraestructura Big Data Almacenamiento de datos Bases de datos relacionales (SQL) MySQL Postgres Oráculo Bases de datos no relacionales (NoSQL) Cassandra MongoDB Neo4js Comprender los matices Bases de datos jerárquicas Bases de datos orientadas a objetos Bases de datos orientadas a documentos Bases de datos orientadas a gráficos Otro Procesamiento distribuido Hadoop HDFS como un sistema de archivos distribuido MapReduce para procesamiento distribuido Spark Marco de computación en clúster en memoria todo en uno para el procesamiento de datos a gran escala Streaming estructurado Spark SQL Bibliotecas de aprendizaje automático: MLlib Procesamiento de gráficos con GraphX Escalabilidad Nube pública AWS, Google, Aliyun, etc. Nube privada OpenStack, Cloud Foundry, etc. Escalabilidad automática Elegir la solución correcta para el problema El futuro de Big Data Observaciones finales
accumulo Apache Accumulo: Construcción de Altamente Escalable Aplicaciones Big Data 21 horas Apache Accumulo is a sorted, distributed key/value store that provides robust, scalable data storage and retrieval. It is based on the design of Google's BigTable and is powered by Apache Hadoop, Apache Zookeeper, and Apache Thrift.   This courses covers the working principles behind Accumulo and walks participants through the development of a sample application on Apache Accumulo. Audience     Application developers     Software engineers     Technical consultants Format of the course     Part lecture, part discussion, hands-on development and implementation, occasional tests to gauge understanding Introduction Installing Accumulo Configuring Accumulo Understanding Accumulo's data model, architecture, and components Working with the shell Database operations Configuring your tables Accumulo iterators Developing an application in Accumulo Securing your application Reading and writing secondary indexes Working with Mapreduce, Spark, and Thrift Proxy Testing your application Troubleshooting Deploying your application Accumulo Administrative tasks
sparkdev Spark para Desarrolladores 21 horas This course will introduce Apache Spark. The students will learn how  Spark fits  into the Big Data ecosystem, and how to use Spark for data analysis.  The course covers Spark shell for interactive data analysis, Spark internals, Spark APIs, Spark SQL, Spark streaming, and machine learning and graphX. AUDIENCIA: Desarrolladores / analistas de datos 1. Scala primer Una breve introducción a Scala Laboratorios: Conocimiento Scala 2. Spark Basics Antecedentes e historia Spark y Hadoop Spark conceptos y arquitectura Spark sistema ecológico (núcleo, spark sql, mlib, streaming) Labs: Instalación y funcionamiento de Spark 3. Primera mirada a la chispa Ejecutar Spark en modo local Interfaz web de Spark web Cáscara de chispa Análisis del conjunto de datos - parte 1 Inspección de RDDs Labs: Exploratio de la cáscara de la chispa 4. RDDs Conceptos de RDDs Particiones Operaciones / transformaciones RDD Tipos de RDD Par de valores clave y RDDs MapReduce en RDD Almacenamiento en caché y persistencia Labs: creación e inspección de RDDs; Caching de RDDs 5. Programación de Spark API Introducción al API Spark API / RDD Enviar el primer programa a Spark Depuración / registro Propiedades de configuración Labs: Programación en Spark API, Envío de trabajos Google Translate for Business:Translator ToolkitWebsite Translator 6. Spark SQL Soporte de SQL en Spark Dataframes Definición de tablas e importación de conjuntos de datos Consultar marcos de datos con SQL Formatos de almacenamiento: JSON / Parquet Labs: Creación y consulta de marcos de datos; Evaluación de formatos de datos 7. MLlib Introducción de MLlib Algoritmos MLlib Labs: Escritura de aplicaciones MLib 8. GraphX Descripción de la biblioteca GraphX API de GraphX Labs: Procesamiento de datos de gráficos utilizando Spark 9. Spark Streaming Descripción general de la transmisión Evaluación de plataformas de transmisión Operaciones de streaming Operaciones de ventana deslizante Labs: Escribir aplicaciones de chispa en streaming 10. Spark y Hadoop Hadoop Intro (HDFS / YARN) Arquitectura de Hadoop + Spark Ejecutar Spark en Hadoop YARN Procesamiento de archivos HDFS con Spark 11. Rendimiento y optimización de la chispa Variables de difusión Acumuladores Gestión de memoria y caché 12. Operaciones de chispa Implementación de Spark en producción Ejemplos de plantillas de implementación Configuraciones Supervisión Solución de problemas
TalendDI Talend Open Studio for Data Integration 28 horas Talend Open Studio for Data Integration is an open-source data integration product used to combine, convert and update data in various locations across a business. In this instructor-led, live training, participants will learn how to use the Talend ETL tool to carry out data transformation, data extraction, and connectivity with Hadoop, Hive, and Pig.   By the end of this training, participants will be able to Explain the concepts behind ETL (Extract, Transform, Load) and propagation Define ETL methods and ETL tools to connect with Hadoop Efficiently amass, retrieve, digest, consume, transform and shape big data in accordance to business requirements Audience Business intelligence professionals Project managers Database professionals SQL Developers ETL Developers Solution architects Data architects Data warehousing professionals System administrators and integrators Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
kdbplusandq kdb+ and q: Analyze time series data 21 horas kdb+ is an in-memory, column-oriented database and q is its built-in, interpreted vector-based language. In kdb+, tables are columns of vectors and q is used to perform operations on the table data as if it was a list. kdb+ and q are commonly used in high frequency trading and are popular with the major financial institutions, including Goldman Sachs, Morgan Stanley, Merrill Lynch, JP Morgan, etc. In this instructor-led, live training, participants will learn how to create a time series data application using kdb+ and q. By the end of this training, participants will be able to: Understand the difference between a row-oriented database and a column-oriented database Select data, write scripts and create functions to carry out advanced analytics Analyze time series data such as stock and commodity exchange data Use kdb+'s in-memory capabilities to store, analyze, process and retrieve large data sets at high speed Think of functions and data at a higher level than the standard function(arguments) approach common in non-vector languages Explore other time-sensitive applications for kdb+, including energy trading, telecommunications, sensor data, log data, and machine and network usage monitoring Audience Developers Database engineers Data scientists Data analysts Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
matlabfundamentalsfinance Fundamentos de MATLAB - Personalizado 35 horas Este curso proporciona una introducción completa al entorno informático técnico de MATLAB + una introducción al uso de MATLAB para aplicaciones financieras. El curso está dirigido a usuarios principiantes y aquellos que buscan una revisión. No se asume experiencia previa en programación o conocimiento de MATLAB. Los temas de análisis de datos, visualización, modelado y programación se exploran a lo largo del curso. Los temas incluyen: Trabajando con la interfaz de usuario de MATLAB Ingresando comandos y creando variables Analizando vectores y matrices Visualización de datos vectoriales y matriciales Trabajando con archivos de datos Trabajando con tipos de datos Automatización de comandos con scripts Escritura de programas con lógica y control de flujo Funciones de escritura Uso de Financial Toolbox para el análisis cuantitativo Parte 1 Una breve introducción a MATLAB Objetivos: ofrecer una descripción general de lo que es MATLAB, en qué consiste y qué puede hacer por usted Un ejemplo: C vs. MATLAB Descripción del producto MATLAB Campos de aplicación de MATLAB ¿Qué puede hacer MATLAB por usted? El esquema del curso Trabajando con la interfaz de usuario MATLAB Objetivo: Obtener una introducción a las características principales del entorno de diseño integrado de MATLAB y sus interfaces de usuario. Obtenga una descripción general de los temas del curso. Interfaz MATALB Leyendo datos del archivo Guardar y cargar variables Trazando datos Personalizar parcelas Cálculo de estadísticas y línea de ajuste óptimo Exportación de gráficos para usar en otras aplicaciones Variables y expresiones Objetivo: Ingresar los comandos de MATLAB, con énfasis en crear y acceder a datos en variables. Ingresando comandos Creando variables Obteniendo ayuda Accediendo y modificando valores en variables Creando variables de caracteres Análisis y visualización con vectores Objetivo: realizar cálculos matemáticos y estadísticos con vectores y crear visualizaciones básicas. Vea cómo la sintaxis de MATLAB permite cálculos en conjuntos de datos completos con un solo comando. Cálculos con vectores Trazado de vectores Opciones de trazado básico Parcelas de anotación Análisis y visualización con matrices Objetivo: Usar matrices como objetos matemáticos o como colecciones de datos (vector). Comprenda el uso apropiado de la sintaxis de MATLAB para distinguir entre estas aplicaciones. Tamaño y dimensionalidad Cálculos con matrices Estadísticas con datos matriciales Trazando múltiples columnas Remodelación y indexación lineal Arrays multidimensionales Parte 2 Automatización de comandos con scripts Objetivo: Recopilar comandos de MATLAB en scripts para facilitar la reproducción y la experimentación. A medida que aumenta la complejidad de sus tareas, ingresar secuencias largas de comandos en la Ventana de Comando se vuelve poco práctico. Un ejemplo de modelado El historial de comando Crear archivos de script Ejecutando scripts Comentarios y celdas de código Publicación de scripts Trabajando con archivos de datos Objetivo: traer datos a MATLAB desde archivos formateados. Debido a que los datos importados pueden ser de una amplia variedad de tipos y formatos, se hace hincapié en trabajar con matrices de celdas y formatos de fecha. Importar datos Tipos de datos mixtos Matrices de celdas Conversiones entre numerales, cadenas y celdas Exportar datos Múltiples parcelas de vectores Objetivo: crear gráficos vectoriales más complejos, como gráficos múltiples, y usar técnicas de manipulación de colores y cadenas para producir representaciones visuales de datos llamativas. Estructura de gráficos Múltiples figuras, ejes y tramas Trazando ecuaciones Usando color Personalizar parcelas Lógica y control de flujo Objetivo: usar operaciones lógicas, variables y técnicas de indexación para crear código flexible que pueda tomar decisiones y adaptarse a diferentes situaciones. Explore otras construcciones de programación para repetir secciones de código y construcciones que permitan la interacción con el usuario. Operaciones lógicas y variables Indexación lógica Construcciones de programación Control de flujo Bucles Matriz y visualización de imágenes Objetivo: visualizar imágenes y datos de matriz en dos o tres dimensiones. Explore la diferencia al mostrar imágenes y visualizar datos matriciales usando imágenes. Interpolación dispersa utilizando datos vectoriales y matriciales Visualización de matriz tridimensional Visualización de matriz 2-D Imágenes indexadas y mapas de colores Imágenes de color verdadero Parte 3 Análisis de los datos Objetivo: realizar tareas típicas de análisis de datos en MATLAB, incluido el desarrollo y ajuste de modelos teóricos a datos de la vida real. Esto conduce naturalmente a una de las características más poderosas de MATLAB: resolver sistemas lineales de ecuaciones con un solo comando. Tratando con datos faltantes Correlación Suavizado Análisis espectral y FFT Resolviendo sistemas lineales de ecuaciones Funciones de escritura Objetivo: Aumentar la automatización encapsulando tareas modulares como funciones definidas por el usuario. Comprenda cómo MATLAB resuelve las referencias a archivos y variables. ¿Por qué funciona? Creando funciones Agregar comentarios Subfunciones de llamadas Espacios de trabajo Subfunciones Camino y precedencia Tipos de datos Objetivo: explorar los tipos de datos, centrarse en la sintaxis para crear variables y acceder a los elementos de la matriz, y discutir los métodos para la conversión entre los tipos de datos. Los tipos de datos difieren en el tipo de datos que pueden contener y la forma en que se organizan los datos. Tipos de datos MATLAB Enteros Estructuras Conversión de tipos Archivo de E / S Objetivo: explorar las funciones de importación y exportación de datos de bajo nivel en MATLAB que permiten un control preciso sobre el texto y la E / S de archivos binarios. Estas funciones incluyen textscan, que proporciona un control preciso de la lectura de archivos de texto. Apertura y cierre de archivos Leer y escribir archivos de texto Leer y escribir archivos binarios Tenga en cuenta que la entrega real puede estar sujeta a discrepancias menores del esquema anterior sin notificación previa. Parte 4 Descripción general de la caja de herramientas financieras de MATLAB Objetivo: aprender a aplicar las diversas funciones incluidas en MATLAB Financial Toolbox para realizar análisis cuantitativos para la industria financiera. Obtenga el conocimiento y la práctica necesarios para desarrollar eficientemente aplicaciones del mundo real que involucren datos financieros. Asignación de activos y optimización de la cartera Análisis de riesgo y rendimiento de la inversión Análisis de ingresos fijos y precios de opciones Análisis de series temporales financieras Regresión y estimación con datos perdidos Indicadores técnicos y tablas financieras Simulación Monte Carlo de modelos SDE Asignación de activos y optimización de la cartera Objetivo: realizar asignación de capital, asignación de activos y evaluación de riesgos. Estimar el rendimiento de los activos y los momentos de devolución totales a partir de los datos de precio o rendimiento Cálculo de estadísticas a nivel de cartera, como media, varianza, valor en riesgo (VaR) y valor condicional en riesgo (CVaR) Realización de análisis y optimización de cartera de media-varianza restringida Examinar la evolución temporal de asignaciones de cartera eficientes Realización de asignación de capital Contabilización de la facturación y los costos de transacción en problemas de optimización de la cartera Análisis de riesgo y rendimiento de la inversión Objetivo: Definir y resolver problemas de optimización de cartera. Especificar un nombre de cartera, el número de activos en un universo de activos e identificadores de activos. Definición de una asignación de cartera inicial. Análisis de ingresos fijos y precios de opciones Objetivo: realizar un análisis de ingresos fijos y fijación de precios de opciones. Analizando el flujo de caja Realizar análisis de seguridad de ingresos fijos conforme a SIA Realización de precios de opción Black-Scholes, Black y binomial básicos Parte 5 Análisis de series temporales financieras Objetivo: analizar datos de series de tiempo en los mercados financieros. Realizar datos matemáticos Transformando y analizando datos Análisis técnico Gráficos y gráficos Regresión y estimación con datos perdidos Objetivo: realizar una regresión normal multivariante con o sin datos faltantes. Realizando regresiones comunes Estimación de la función de verosimilitud de log y errores estándar para la prueba de hipótesis Completar los cálculos cuando faltan datos Indicadores técnicos y tablas financieras Objetivo: Practicar el uso de métricas de rendimiento y trazados especializados. Promedios móviles Osciladores, estocásticos, índices e indicadores Descenso máximo y reducción máxima esperada Gráficos, que incluyen bandas de Bollinger, diagramas de velas y promedios móviles Simulación Monte Carlo de modelos SDE Objetivo: crear simulaciones y aplicar modelos SDE Movimiento Browniano (BM) Movimiento Browniano Geométrico (GBM) Elasticidad constante de varianza (CEV) Cox-Ingersoll-Ross (CIR) Hull-White / Vasicek (HWV) Heston Conclusión Objetivos: Resumir lo que hemos aprendido Un resumen del curso Otros próximos cursos sobre MATLAB Nota: el contenido real entregado puede diferir del esquema como resultado de los requisitos del cliente y el tiempo dedicado a cada tema.
DM7 Introducción a DM7 21 horas Audience Beginner or intermediate database developers Beginner or intermediate database administrators Programmers Format of the course Heavy emphasis on hands-on practice. Most of the concepts are learned through samples, exercises and hands-on development Introduction to 达梦7 (达梦数据库管理系统) 达梦7 vs SQL Server, MySQL, and Oracle Installing 达梦7 Creating your first 达梦7 database Configuring your 达梦7 database Tables and Views in 达梦7 Working with SQL Programming 达梦7 Administering 达梦7 Backing up and restoring Security Performance monitoring The future of 达梦7
hadoopdeva Hadoop Avanzado para Desarrolladores 21 horas Apache Hadoop es uno de los frameworks más populares para procesar Big Data en clusters de servidores. Este curso profundiza en el manejo de datos en HDFS, Pig, Hive y HBase. Estas técnicas avanzadas de programación serán beneficiosas para los desarrolladores experimentados de Hadoop. Audiencia: desarrolladores Duración: tres días Formato: conferencias (50%) y laboratorios prácticos (50%). Sección 1: Gestión de datos en HDFS Varios formatos de datos (JSON / Avro / Parquet) Esquemas de Compresión Enmascaramiento de datos Laboratorios: Analizar diferentes formatos de datos; Permitiendo la compresión Sección 2: Cerdo Avanzado Funciones definidas por el usuario Introducción a las bibliotecas de cerdos (ElephantBird / Data-Fu) Cargando datos estructurados complejos usando cerdo Afinación del cerdo Labs: scripting avanzado de pig, análisis de tipos de datos complejos Sección 3: Colmena avanzada Funciones definidas por el usuario Tablas comprimidas Ajuste de rendimiento de colmena Labs: creación de tablas comprimidas, evaluación de formatos de tablas y configuración Sección 4: Advanced HBase Modelado avanzado de esquemas Compresión Los datos a granel se ingeren Comparación mesa ancha / mesa alta HBase y cerdo HBase y colmena Ajuste del rendimiento de HBase Laboratorios: tuning HBase; Acceder a los datos de HBase de Pig & Hive; Uso de Phoenix para modelado de datos
PentahoDI Pentaho Data Integration Fundamentals 21 horas Pentaho Data Integration is an open-source data integration tool for defining jobs and data transformations. In this instructor-led, live training, participants will learn how to use Pentaho Data Integration's powerful ETL capabilities and rich GUI to manage an entire big data lifecycle, maximizing the value of data to the organization. By the end of this training, participants will be able to: Create, preview, and run basic data transformations containing steps and hops Configure and secure the Pentaho Enterprise Repository Harness disparate sources of data and generate a single, unified version of the truth in an analytics-ready format. Provide results to third-part applications for further processing Audience Data Analyst ETL developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
hypertable Hypertable: Deploy a BigTable like database 14 horas Hypertable was an open-source software database management system based on the design of Google's Bigtable. In this instructor-led, live training, participants will learn how to set up and manage a Hypertable database system. By the end of this training, participants will be able to: Install, configure and upgrade a Hypertable instance Set up and administer a Hypertable cluster Monitor and optimize the performance of the database Design a Hypertable schema Work with Hypertable's API Troubleshoot operational issues Audience Developers Operations engineers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.
ApHadm1 Apache Hadoop: manipulación y transformación del rendimiento de los datos 21 horas Este curso está dirigido a desarrolladores, arquitectos, científicos de datos o cualquier perfil que requiera acceso a los datos de forma intensiva o regular. El enfoque principal del curso es la manipulación y transformación de datos. Entre las herramientas del ecosistema de Hadoop, este curso incluye el uso de Pig y Hive, que se utilizan mucho para la transformación y manipulación de datos. Esta capacitación también aborda las métricas de rendimiento y la optimización del rendimiento. El curso es completamente práctico y está marcado por presentaciones de los aspectos teóricos. 1.1 Conceptos de Hadoop 1.1.1HDFS El diseño de HDFS Interfaz de línea de comando Sistema de archivos Hadoop 1.1.2 Clusters Anatomía de un grupo Nodo maestro / Nodo esclavo Nombre Nodo / Nodo de datos 1.2 Manipulación de datos 1.2.1MapReduce detallado Fase del mapa Reducir fase Barajar 1.2.2 Analítica con reducción de mapa Group-By con MapReduce Distribuciones de frecuencia y clasificación con MapReduce Trazado de resultados (GNU Plot) Histogramas con MapReduce Diagramas de dispersión con MapReduce Análisis de conjuntos de datos complejos Contando con MapReduce y Combiners Generar informes 1.2.3 Limpieza de datos Limpieza de documentos Búsqueda de cadenas borrosas Registrar deduplicación de enlace / datos Transformar y ordenar fechas de eventos Validar la fiabilidad de la fuente Recortar valores atípicos 1.2.4Extracción y transformación de datos Transformando troncos Usando Apache Pig para filtrar Usando Apache Pig para ordenar Usando Apache Pig para sesionar 1.2.5 Uniones avanzadas Unir datos en Mapper usando MapReduce Unir datos usando Apache Pig replicar join Unir datos ordenados utilizando Apache Pig merge join Unir datos asimétricos utilizando Apache Pig skewed join Usando una unión del lado del mapa en Apache Hive Usando uniones exteriores completas optimizadas en Apache Hive Unir datos usando un almacén de valores de clave externa 1.3 Diagnóstico de rendimiento y técnicas de optimización Mapa Investigando picos en los datos de entrada Identificación de problemas de sesgo de datos del lado del mapa Asignar rendimiento de la tarea Archivos pequeños Archivos no divisibles Reducir Muy pocos o muchos reductores Reducir los problemas de sesgo de datos del lado Reducir el rendimiento de las tareas Mezcla lenta y clasificación Trabajos en competencia y estrangulamiento del programador Volcados de pila y código no optimizado Fallas de hardware Contención de CPU Tareas Extrayendo y visualizando tiempos de ejecución de tareas Perfilando su mapa y reduciendo tareas Evita el reductor Filtro y proyecto Usando el combinador Clasificación rápida con comparadores Recolectando datos sesgados Reducir la mitigación oblicua
mdlmrah Model MapReduce y Apache Hadoop 14 horas El curso está destinado al especialista en TI que trabaja con el procesamiento distribuido de grandes conjuntos de datos a través de grupos de computadoras. Minería de Datos e Inteligencia de Negocios Introducción Area de aplicación Capacidades Fundamentos de la exploración de datos Grandes Datos Qué significa Big Data? Grandes datos y minería de datos Mapa reducido Aspectos básicos del modelo Ejemplo de aplicación Estadísticas Modelo de cluster Hadoop Qué es Hadoop? Instalación Configuración Configuración del clúster Arquitectura y configuración de Hadoop Distributed File System Herramientas de consola Herramienta DistCp MapReduce y Hadoop Transmisión Administración y configuración de Hadoop On Demand Alternativas
hadoopdev Hadoop para Desarrolladores (4 días) 28 horas Apache Hadoop es el marco más popular para procesar Big Data en clústeres de servidores. Este curso presentará un desarrollador a varios componentes (HDFS, MapReduce, Pig, Hive y HBase) Hadoop ecosistema. Sección 1: Introducción a Hadoop Hadoop historia, conceptos Sistema ecológico Distribuciones Arquitectura de alto nivel Mitos hadoop Desafíos de hadoop hardware software Laboratorio: primer vistazo a Hadoop Sección 2: HDFS Diseño y arquitectura Conceptos (escala horizontal, replicación, localidad de datos, conocimiento de rack) Daemons: Namenode, Namenode secundario, Nodo de datos Comunicaciones / latidos del corazón integridad de los datos Ruta de lectura / escritura Namenode High Availability (HA), Federación Laboratorios: interacción con HDFS Sección 3: Mapa Reducir Conceptos y arquitectura Daemons (MRV1): jobtracker / tasktracker Fases: driver, mapper, shuffle / sort, reductor Mapa Reduzca Versión 1 y Versión 2 (YARN) Internos del Mapa Reducir Introducción a Java Map Reduce el programa Laboratorios: Ejecutar un programa MapReduce de ejemplo Sección 4: Cerdo Cerdo vs java mapa reducir Flujo de trabajo porcino Lengua latina del cerdo ETL con cerdo Transformations & Joins Funciones definidas por el usuario (UDF) Laboratorios: escribir scripts Pig para analizar datos Sección 5: Colmena Arquitectura y diseño tipos de datos Soporte SQL en Hive Creación de tablas Hive y consultas Particiones Se une Procesamiento de texto Laboratorios: varios laboratorios sobre procesamiento de datos con Hive Sección 6: HBase Conceptos y arquitectura Hbase vs RDBMS vs cassandra API de Java de HBase Datos de series temporales de HBase Diseño del esquema Labs: Interacción con HBase usando shell; Programación en HBase Java API; Ejercicio de diseño de esquemas
hdp Hortonworks Data Platform (HDP) for administrators 21 horas Hortonworks Data Platform is an open-source Apache Hadoop support platform that provides a stable foundation for developing big data solutions on the Apache Hadoop ecosystem. This instructor-led live training introduces Hortonworks and walks participants through the deployment of Spark + Hadoop solution. By the end of this training, participants will be able to: Use Hortonworks to reliably run Hadoop at a large scale Unify Hadoop's security, governance, and operations capabilities with Spark's agile analytic workflows. Use Hortonworks to investigate, validate, certify and support each of the components in a Spark project Process different types of data, including structured, unstructured, in-motion, and at-rest. Audience Hadoop administrators Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
cassadmin Administración de Cassandra 14 horas Este curso presentará Cassandra, una popular base de datos NoSQL. Cubrirá los principios, la arquitectura y el modelo de datos de Cassandra. Los estudiantes aprenderán a modelar datos en CQL (Lenguaje de consulta de Cassandra) en prácticas, laboratorios interactivos. Esta sesión también trata sobre las internas de Cassandra y algunos temas de administración. Sección 1: Introducción a Big Data / NoSQL Visión general de NoSQL Teorema CAP Cuándo es NoSQL apropiado Almacenamiento en columna Ecosistema NoSQL Sección 2: Conceptos básicos de Cassandra Diseño y arquitectura Nodos de Cassandra, clústeres, centros de datos Teclas, tablas, filas y columnas Partición, replicación, tokens Niveles de consistencia y quórum Labs: interactuando con cassandra usando CQLSH Sección 3: Modelado de datos - parte 1 introducción a CQL CQL Datatypes creando espacios de claves y tablas Elegir columnas y tipos Elegir llaves primarias Diseño de datos para filas y columnas Tiempo para vivir (TTL) Consultando con CQL Actualizaciones de CQL Colecciones (lista / mapa / conjunto) Labs: varios ejercicios de modelado de datos usando CQL; experimentando con consultas y tipos de datos compatibles Sección 4: Modelado de datos - parte 2 Crear y usar índices secundarios claves compuestas (claves de partición y claves de agrupamiento) Datos de series de tiempo Mejores prácticas para datos de series de tiempo Contadores Transacciones livianas (LWT) Labs: creación y uso de índices; modelado de datos de series de tiempo Sección 5: Cassandra Internals entender el diseño de Cassandra bajo el capó sstables, memtables, commit log Sección 6: Administración Selección de hardware Distribuciones de Cassandra Nodos de Cassandra Comunicación Escribir y leer datos en / desde el motor de almacenamiento Directorios de datos Operaciones contra la entropía Compactación Cassandra Elegir e implementar estrategias de compactación Mejores prácticas de Cassandra (compactación, recolección de basura,) herramientas de solución de problemas y consejos Laboratorio: los estudiantes instalan Cassandra, ejecutan los puntos de referencia
pythonmultipurpose Advanced Python 28 horas In this instructor-led training, participants will learn advanced Python programming techniques, including how to apply this versatile language to solve problems in areas such as distributed applications, finance, data analysis and visualization, UI programming and maintenance scripting. Audience Developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice Notes If you wish to add, remove or customize any section or topic within this course, please contact us to arrange.   Introduction     Python versatility: from data analysis to web crawling Python data structures and operations     Integers and floats     Strings and bytes     Tuples and lists     Dictionaries and ordered dictionaries     Sets and frozen sets     Data frame (pandas)     Conversions Object-oriented programming with Python     Inheritance     Polymorphism     Static classes     Static functions     Decorators     Other Data Analysis with pandas     Data cleaning     Using vectorized data in pandas     Data wrangling     Sorting and filtering data     Aggregate operations     Analyzing time series Data visualization     Plotting diagrams with matplotlib     Using matplotlib from within pandas     Creating quality diagrams     Visualizing data in Jupyter notebooks     Other visualization libraries in Python Vectorizing Data in Numpy     Creating Numpy arrays     Common operations on matrices     Using ufuncs     Views and broadcasting on Numpy arrays     Optimizing performance by avoiding loops     Optimizing performance with cProfile Processing Big Data with Python     Building and supporting distributed applications with Python     Data storage: Working with SQL and NoSQL databases     Distributed processing with Hadoop and Spark     Scaling your applications Python for finance     Packages, libraries and APIs for financial processing         Zipline         PyAlgoTrade         Pybacktest         quantlib         Python APIs Extending Python (and vice versa) with other languages     C#     Java     C++     Perl     Others Python multi-threaded programming     Modules     Synchronizing     Prioritizing UI programming with Python     Framework options for building GUIs in Python         Tkinter         Pyqt Python for maintenance scripting     Raising and catching exceptions correctly     Organizing code into modules and packages     Understanding symbol tables and accessing them in code     Picking a testing framework and applying TDD in Python Python for the web     Packages for web processing     Web crawling     Parsing HTML and XML     Filling web forms automatically Closing remarks
bdbiga Inteligencia de Negocios de Big Data para Agencias del Gobierno 35 horas Los avances en las tecnologías y la creciente cantidad de información están transformando la forma en que los negocios se llevan a cabo en muchas industrias, incluyendo el gobierno. Los índices de generación de gobierno y de archivos digitales están aumentando debido al rápido crecimiento de dispositivos y aplicaciones móviles, sensores y dispositivos inteligentes, soluciones de cloud computing y portales orientados a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión de la información, el procesamiento, el almacenamiento, la seguridad y la disposición también se vuelven más complejos. Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información sobre sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, al darse cuenta de que la información es un activo estratégico y el gobierno necesita proteger, aprovechar y analizar información estructurada y no estructurada para servir mejor y cumplir con los requisitos de la misión. A medida que los líderes del gobierno se esfuerzan por evolucionar las organizaciones impulsadas por datos para cumplir con éxito la misión, están sentando las bases para correlacionar dependencias a través de eventos, personas, procesos e información. Las soluciones gubernamentales de alto valor se crearán a partir de un mashup de las tecnologías más perjudiciales: Dispositivos y aplicaciones móviles Servicios en la nube Tecnologías de redes sociales y redes Big Data y análisis IDC predice que para el año 2020, la industria de TI alcanzará los $ 5 billones, aproximadamente $ 1.7 trillones más que hoy, y que el 80% del crecimiento de la industria será impulsado por estas tecnologías de la 3ª Plataforma. A largo plazo, estas tecnologías serán herramientas clave para hacer frente a la complejidad del aumento de la información digital. Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones tomando medidas basadas en patrones revelados al analizar grandes volúmenes de datos relacionados y no relacionados, estructurados y no estructurados. Pero el logro de estas hazañas lleva mucho más que la simple acumulación de cantidades masivas de datos. "Haciendo sentido de estos volúmenes de Big Datarequires herramientas de vanguardia y" tecnologías que pueden analizar y extraer conocimiento útil de las corrientes de información vasta y diversa ", Tom Kalil y Fen Zhao de la Oficina de la Casa Blanca de Política Científica y Tecnológica escribió en un post en el blog de OSTP. La Casa Blanca dio un paso hacia ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Grandes Datos en 2012. La iniciativa incluyó más de $ 200 millones para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarla . Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. El almacenamiento eficiente de los datos es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte de almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlo cuando lo deseen y cómo lo necesitan. Copia de seguridad de grandes cantidades de datos aumenta el reto. Otro gran desafío es analizar los datos de manera eficaz. Muchas agencias emplean herramientas comerciales que les permiten tamizar las montañas de datos, detectando tendencias que pueden ayudarles a operar de manera más eficiente. (Un estudio reciente de MeriTalk encontró que los ejecutivos federales de TI piensan que Big Data podría ayudar a las agencias a ahorrar más de 500.000 millones de dólares mientras cumplen los objetivos de la misión). Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de análisis de datos Piranha. El sistema ha ayudado a los investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre los aneurismas de la aorta antes de que hagan huelga. También se utiliza para tareas más mundanas, tales como tamizar a través de currículos para conectar candidatos de trabajo con los gerentes de contratación. Cada sesión dura 2 horas Día-1: Sesión -1: Visión general del negocio de ¿Por qué Big Business Intelligence de datos en Gbno. Estudios de casos de NIH, DoE Gran tasa de adaptación de datos en Gbno. Agencias y cómo están alineando su operación futura con Big Data Predictive Analytics Área de Aplicación a Escala Amplia en DoD, NSA, IRS, USDA, etc. Interfacing Big Data con datos heredados Comprensión básica de las tecnologías habilitadoras en el análisis predictivo Integración de datos y visualización de Dashboard Gestión de fraude Regla comercial / Generación de detección de fraude Detección y perfilamiento de amenazas Análisis costo-beneficio para la implementación de Big Data Día-1: Sesión-2: Introducción de datos grandes-1 Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura de MPP para el volumen. Almacenes de datos - esquema estático, conjunto de datos que evoluciona lentamente MPP Bases de datos como Greenplum, Exadata, Teradata, Netezza, Vertica, etc. Soluciones basadas en Hadoop - no hay condiciones sobre la estructura del dataset. Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS Adecuado para análisis analítico / no interactivo Volumen: datos de streaming de CEP Opciones típicas - productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.) Menos producción lista - Storm / S4 Bases de datos NoSQL - (columnar y clave-valor): Mejor adaptado como adjunto analítico al almacén de datos / base de datos Día-1: Sesión -3: Introducción a Big Data-2 Soluciones NoSQL KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB) Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB Almacén KV (jerárquico) - GT.m, caché KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherencia, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Río Apache Base de datos de objetos - ZopeDB, DB40, Shoal Tienda de Documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Bases de Datos, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Tienda Columnar ancha - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI Variedades de datos: Introducción al problema de limpieza de datos en Big Data RDBMS - estructura estática / esquema, no promueve ágil, el ambiente exploratorio. NoSQL - estructura semi estructurada, suficiente para almacenar datos sin esquema exacto antes de almacenar datos Problemas de limpieza de datos Día-1: Sesión-4: Introducción de grandes datos-3: Hadoop Cuándo seleccionar Hadoop? ESTRUCTURADO - Los almacenes / bases de datos de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa) Datos SEMI ESTRUCTURADOS - difíciles de hacer con soluciones tradicionales (DW / DB) Almacenamiento de datos = ENORME esfuerzo y estática incluso después de la implementación Por la variedad y el volumen de datos, crujido en el hardware de la materia - HADOOP H / W de productos necesarios para crear un clúster Hadoop Introducción a la reducción de mapa / HDFS MapReduce - distribuye la computación en varios servidores HDFS - hacer los datos disponibles localmente para el proceso de computación (con redundancia) Datos - pueden ser no estructurados / sin esquema (a diferencia de RDBMS) Responsabilidad del desarrollador para dar sentido a los datos Programación MapReduce = trabajo con Java (pros / contras), carga manual de datos en HDFS Día-2: Sesión-1: Big Data Ecosystem-Building Big Data ETL: universo de Big Data Tools-cuál usar y cuándo? Hadoop vs. Otras soluciones NoSQL Para acceso interactivo y aleatorio a los datos Hbase (base de datos orientada a columnas) sobre Hadoop Acceso aleatorio a datos pero restricciones impuestas (max 1 PB) No es bueno para análisis ad-hoc, bueno para registrar, contar, series de tiempo Sqoop - Importación de bases de datos a Hive o HDFS (acceso JDBC / ODBC) Flume - Flujo de datos (por ejemplo, datos de registro) en HDFS Día-2: Sesión-2: Gran Sistema de Gestión de Datos Partes móviles, los nodos de cálculo de inicio / error: ZooKeeper - Para la configuración / coordinación / servicios de nombres Oleoducto / flujo de trabajo complejos: Oozie - gestionar flujo de trabajo, dependencias, conexión en cadena Implementar, configurar, administrar el clúster, actualizar etc (sys admin): Ambari En la nube: Whirr Día-2: Sesión-3: Análisis predictivo en Inteligencia de Negocios -1: Técnicas Fundamentales y Aprendizaje Automático basado en BI: Introducción al aprendizaje automático Técnicas de clasificación de aprendizaje Bayesian Prediction-preparación del archivo de entrenamiento Máquinas de vectores soporte KNN p-Árbol Álgebra y minería vertical Red Neural Big Data problema variable grande -Random forest (RF) Problema de Big Data Automation - Conjunto de múltiples modelos RF Automatización a través de Soft10-M Herramienta analítica de texto-Treeminer Aprendizaje Ágil Aprendizaje basado en agentes Aprendizaje distribuido Introducción a Herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahut Día-2: Sesión-4 Análisis predictivo eco-sistema-2: Problemas analíticos predictivos comunes en Gbno. Análisis analítico Visualización analítica Análisis predictivo estructurado Análisis predictivo no estructurado Perfil de amenaza / fraude / proveedor Motor de recomendación Detección de patrones Descubrimiento de reglas / escenarios: falla, fraude, optimización Descubrimiento de la causa raíz Análisis de los sentimientos Análisis de CRM Analítica de red Análisis de texto Revisión asistida por tecnología Analisis de fraude Analítica en tiempo real Día-3: Sesion-1: Análisis escalable y en tiempo real sobre Hadoop Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS Apache Hama- para Bulk Synchronous distribued computing Apache SPARK- para la computación en clúster para análisis analítico en tiempo real CMU Graphics Lab2- Enfoque asincrónico basado en gráficos para la computación distribuida KNN enfoque p-álgebra de Treeminer para reducir el costo de hardware de la operación Día-3: Sesión-2: Herramientas para el eDiscovery y forense EDiscovery sobre datos Big Data vs. Legacy - una comparación de costo y rendimiento Codificación predictiva y revisión asistida por tecnología (TAR) Demostración en vivo de un producto de alquitrán (vMiner) para entender cómo TAR funciona para un descubrimiento más rápido Indexación más rápida a través de HDFS - velocidad de los datos PNL o Procesamiento de Lenguaje Natural - diversas técnicas y productos de código abierto EDiscovery en lenguas extranjeras-tecnología para el procesamiento de lenguas extranjeras Día 3: Sesión 3: Big Data BI para la Seguridad Cibernética -Comprendiendo vistas completas de 360 grados de la rápida recopilación de datos para la identificación de amenazas Conceptos básicos de análisis de seguridad: superficie de ataque, configuración errónea de seguridad, defensas del host Infraestructura de la red / ETL grande del datapipe / de la respuesta para la analítica en tiempo real Prescriptivo vs predictivo - Regla fija basada en auto-descubrimiento de las reglas de amenaza de los metadatos Día 3: Sesión 4: Datos grandes en el USDA: Aplicación en la agricultura Introducción a IoT (Internet de Cosas) para la agricultura-sensor basado en Big Data y control Introducción a la imagen por satélite y su aplicación en la agricultura Integración de sensores y datos de imagen para la fertilidad del suelo, recomendación de cultivo y previsión Seguro agrícola y Big Data Predicción de pérdidas de cultivos Día-4: Sesión-1: prevención del fraude BI de Big Data en Govt-Fraud analítica: Clasificación básica de la analítica de fraude-basada en reglas y analítica predictiva Supervisado vs no supervisado Aprendizaje de máquina para la detección de patrón de fraude Fraude de proveedores / sobre facturación de proyectos Medicare y Medicaid fraude-técnicas de detección de fraude para el procesamiento de reclamaciones Fraude de reembolso de viajes Fraude de reembolso del IRS Los estudios de casos y la demostración en vivo se darán siempre que se disponga de datos. Día-4: Sesión-2: Recopilación y análisis de la inteligencia analítica de los medios sociales Big Data ETL API para extraer datos de redes sociales Texto, imagen, metadatos y vídeo Análisis de sentimientos de los medios de comunicación social feed Filtrado contextual y no contextual de los medios de comunicación social feed Social Media Dashboard para integrar diversas redes sociales Perfiles automatizados de perfil de redes sociales Demostración en vivo de cada analítica se dará a través de Treeminer Tool. Día-4: Sesión-3: Análisis de datos grandes en procesamiento de imágenes y video feeds Técnicas de almacenamiento de imágenes en la solución Big Data-Storage para datos que exceden los petabytes LTFS y LTO GPFS-LTFS (solución de almacenamiento en capas para datos de imagen grande) Fundamental del análisis de imagen Reconocimiento de objetos Segmentación de imagen Rastreo de movimiento Reconstrucción 3D de imágenes Día-4: Sesión-4: Aplicaciones de datos grandes en NIH: Nuevas áreas de Bio-informática Meta-genómica y cuestiones de minería de datos grandes Analítica predictiva de Big Data para Farmacogenómica, Metabolómica y Proteómica Datos grandes en el proceso de Genómica descendente Aplicación de la analítica predictiva de grandes datos en salud pública Big Data Dashboard para una rápida accesibilidad de diversos datos y visualización: Integración de la plataforma de aplicaciones existente con Big Data Dashboard Gestión de grandes datos Estudio de caso de Big Data Dashboard: Tableau y Pentaho Utilice la aplicación Big Data para impulsar servicios basados en ubicación en Gbno. Sistema de seguimiento y gestión Día-5: Sesión-1: Cómo justificar la implementación de Big Data BI dentro de una organización: Definición del ROI para la implementación de Big Data Estudios de caso para el ahorro Analista Tiempo de recolección y preparación de datos - Aumento de la ganancia de productividad Estudios de caso de ganancia de ingresos al guardar el coste de base de datos con licencia Ganancia de ingresos de servicios basados en ubicación Ahorro de la prevención del fraude Un enfoque de hoja de cálculo integrado para calcular aprox. Gasto vs. Ganancia / ahorro de ingresos de la implementación de Big Data. Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredados a Big Data System: Entender la hoja de ruta práctica de Big Data Migration Cuáles son la información importante necesaria antes de diseñar una implementación de Big Data Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos Cómo estimar el crecimiento de los datos Estudios de caso Día 5: Sesión 4: Revisión de los proveedores de Big Data y revisión de sus productos. Sesión de Q / A: Accenture APTEAN (Anteriormente CDC Software) Cisco Systems Cloudera Dell EMC GoodData Corporation Guavus Hitachi Data Systems Hortonworks HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (Anteriormente 10Gen) MU Sigma Netapp Soluciones Opera Oráculo Pentaho Platfora Qliktech Cuántico Espacio en bastidor Revolution Analytics Fuerza de ventas SAVIA Instituto SAS Sisense Software AG / Terracota Automatización Soft10 Splunk Cuadrado Supermicro Tabla Software Teradata Piensa en Big Analytics Tidemark Sistemas Treeminer VMware (parte de EMC)
hbasedev HBase para Desarrolladores 21 horas Este curso introduce HBase - un almacén NoSQL en la parte superior de Hadoop. El curso está dirigido a desarrolladores que usarán HBase para desarrollar aplicaciones y administradores que administrarán los clústeres de HBase. Vamos a recorrer un desarrollador a través de la arquitectura de HBase y modelado de datos y desarrollo de aplicaciones en HBase. También discutirá el uso de MapReduce con HBase y algunos temas de administración relacionados con la optimización del rendimiento. El curso es muy práctico con muchos ejercicios de laboratorio. Sección 1: Introducción a Big Data y NoSQL Ecosistema de grandes datos Descripción general de NoSQL Teorema del CAP ¿Cuándo es apropiado NoSQL? Almacenamiento columnar HBase y NoSQL Sección 2: Introducción a HBase Conceptos y Diseño Arquitectura (Servidor HMaster y Región) Integridad de los datos HBase ecosistema Laboratorio: Explorando HBase Sección 1: Introducción a Big Data y NoSQL Ecosistema de grandes datos Descripción general de NoSQL Teorema del CAP ¿Cuándo es apropiado NoSQL? Almacenamiento columnar HBase y NoSQL Sección 2: Introducción a HBase Conceptos y Diseño Arquitectura (Servidor HMaster y Región) Integridad de los datos HBase ecosistema Laboratorio: Explorando HBase Sección 4: Esquema de HBase Diseño: Sesión de grupo Los estudiantes son presentados con casos de uso del mundo real Los estudiantes trabajan en grupos para llegar a soluciones de diseño Discutir / criticar y aprender de múltiples diseños Labs: implementar un escenario en HBase Sección 5: HBase Internals Entendiendo HBase bajo el capó Memfile / HFile / WAL Almacenamiento HDFS Compactaciones Divide Bloom Filtros Cachés Diagnóstico Sección 6: Instalación y configuración de HBase Selección de hardware Métodos de instalación Configuraciones comunes Laboratorio: instalación de HBase Sección 7: El ecosistema de HBase Desarrollando aplicaciones usando HBase Interactuando con otras pilas de Hadoop (MapReduce, Pig, Hive) Marcos alrededor de HBase Conceptos avanzados (co-procesadores) Labs: escribir aplicaciones de HBase Sección 8: Monitoreo y Mejores Prácticas Herramientas y prácticas de monitoreo Optimizar HBase HBase en la nube Casos de uso real de HBase Laboratorios: comprobar los signos vitales de HBase
magellan Magellan: Geospatial Analytics with on Spark 14 horas Magellan is an open-source distributed execution engine for geospatial analytics on big data. Implemented on top of Apache Spark, it extends Spark SQL and provides a relational abstraction for geospatial analytics. This instructor-led, live training introduces the concepts and approaches for implementing geospacial analytics and walks participants through the creation of a predictive analysis application using Magellan on Spark. By the end of this training, participants will be able to: Efficiently query, parse and join geospatial datasets at scale Implement geospatial data in business intelligence and predictive analytics applications Use spatial context to extend the capabilities of mobile devices, sensors, logs, and wearables Audience Application developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
dsbda Ciencia de Datos para Big Data Analytics 35 horas Introducción a Data Science para Big Data Analytics Descripción de Data Science Descripción general de Big Data Estructuras de datos Controladores y complejidades de Big Data El ecosistema Big Data y un nuevo enfoque de análisis Tecnologías clave en Big Data Proceso y problemas de minería de datos Asociación Patrón Minería Agrupación de datos Detección de valores atípicos Clasificación de datos Introducción al ciclo de vida de Data Analytics Descubrimiento Preparación de datos Planificación del modelo Construcción del modelo Presentación / Comunicación de resultados Operacionalización Ejercicio: estudio de caso A partir de este punto, la mayor parte del tiempo de capacitación (80%) se gastará en ejemplos y ejercicios en R y en la tecnología de big data relacionada. Comenzando con R Instalación de R y Rstudio Características del lenguaje R Objetos en R Datos en R Manipulación de datos Problemas de Big Data Ceremonias Comenzando con Hadoop Instalando Hadoop Comprender los modos de Hadoop HDFS Arquitectura MapReduce Visión general de los proyectos relacionados con Hadoop Programas de escritura en Hadoop MapReduce Ceremonias Integrando R y Hadoop con RHadoop Componentes de RHadoop Instalación de RHadoop y conexión con Hadoop La arquitectura de RHadoop Hadoop transmitiendo con R Resolución de problemas de análisis de datos con RHadoop Ceremonias Preprocesamiento y preparación de datos Pasos de preparación de datos Extracción de características Limpieza de datos Integración y transformación de datos Reducción de datos: muestreo, selección de subconjuntos de características, Reducción de dimensionalidad Discretización y binning Ejercicios y estudio de caso Métodos analíticos de datos exploratorios en R Estadísticas descriptivas Análisis exploratorio de datos Visualización - pasos preliminares Visualizando una sola variable Examinando múltiples variables Métodos estadísticos para la evaluación Evaluación de la hipótesis Ejercicios y estudio de caso Visualizaciones de datos Visualizaciones básicas en R Paquetes para la visualización de datos ggplot2, celosía, trama, celosía Formateo de parcelas en R Gráficos avanzados Ceremonias Regresión (Estimación de valores futuros) Regresión lineal Casos de uso Descripcion del modelo Diagnostico Problemas con la regresión lineal Métodos de contracción, regresión de cresta, el lazo Generalizaciones y no linealidad Splines de regresión Regresión polinómica local Modelos aditivos generalizados Regresión con RHadoop Ejercicios y estudio de caso Clasificación Los problemas relacionados con la clasificación Refrescante Bayesiano Naïve Bayes Regresión logística K vecinos más cercanos Algoritmo de árboles de decisión Redes neuronales Máquinas de vectores de soporte Diagnóstico de clasificadores Comparación de los métodos de clasificación Algoritmos escalables de clasificación Ejercicios y estudio de caso Evaluar el rendimiento y la selección del modelo Sesgo, varianza y complejidad del modelo Precisión vs Interpretabilidad Evaluando clasificadores Medidas del rendimiento del modelo / algoritmo Método de validación Hold-out Validación cruzada Algoritmos de aprendizaje de sintonización con paquete caret Visualización del rendimiento del modelo con Profit ROC y curvas de elevación Métodos de conjunto Harpillera Bosques Aleatorios Impulso Aumento de gradiente Ejercicios y estudio de caso Máquinas de vectores de soporte para clasificación y regresión Clasificadores de Margen Máximo Clasificadores de vectores de soporte Máquinas de vectores de soporte SVM para problemas de clasificación SVM para problemas de regresión Ejercicios y estudio de caso Identificar agrupaciones desconocidas dentro de un conjunto de datos Selección de características para la agrupación Algoritmos basados en representativos: k-means, k-medoids Algoritmos jerárquicos: métodos aglomerativos y divisivos Algoritmos de base probabilísticos: EM Algoritmos basados en densidad: DBSCAN, DENCLUE Validación de cluster Conceptos avanzados de clustering Agrupación con RHadoop Ejercicios y estudio de caso Descubriendo conexiones con Link Analysis Conceptos de análisis de enlaces Métricas para analizar redes El algoritmo de Pagerank Búsqueda de tema inducida por hipervínculo Predicción del enlace Ejercicios y estudio de caso Asociación Patrón Minería Modelo de Minería de Patrón Frecuente Problemas de escalabilidad en la minería de patrones frecuentes Algoritmos de fuerza bruta Algoritmo Apriori El enfoque de crecimiento FP Evaluación de las reglas del candidato Aplicaciones de las Reglas de Asociación Validación y prueba Diagnostico Reglas de asociación con R y Hadoop Ejercicios y estudio de caso Construir motores de recomendación Entender los sistemas de recomendación Técnicas de minería de datos utilizadas en los sistemas de recomendación Sistemas de recomendación con el paquete recommenderlab Evaluar los sistemas de recomendación Recomendaciones con RHadoop Ejercicio: motor de recomendación de construcción Análisis de texto Pasos de análisis de texto Recopilación de texto sin formato Bolsa de palabras Frecuencia de términos: frecuencia de documento inverso Determinando Sentimientos Ejercicios y estudio de caso  
bdbitcsp Inteligencia de Negocios Big Data para Proveedores de Servicios de Comunicaciones y Telecomunicaciones 35 horas Los proveedores de servicios de comunicaciones (CSP) se enfrentan a presiones para reducir los costos y maximizar el ingreso promedio por usuario (ARPU), a la vez que garantizan una excelente experiencia del cliente, pero los volúmenes de datos siguen creciendo. El tráfico global de datos móviles crecerá a una tasa de crecimiento anual compuesta (CAGR) de 78 por ciento a 2016, alcanzando 10.8 exabytes al mes. Mientras tanto, los CSP están generando grandes volúmenes de datos, incluyendo registros de detalle de llamadas (CDR), datos de red y datos de clientes. Las empresas que explotan plenamente estos datos ganan una ventaja competitiva. Según una encuesta reciente de The Economist Intelligence Unit, las empresas que utilizan la toma de decisiones orientada a datos disfrutan de un aumento de 5-6% en la productividad. Sin embargo, el 53% de las empresas aprovechan sólo la mitad de sus datos valiosos, y una cuarta parte de los encuestados señaló que gran cantidad de datos útiles no se explotan. Los volúmenes de datos son tan altos que el análisis manual es imposible, y la mayoría de los sistemas de software heredados no pueden mantenerse al día, lo que resulta en que los datos valiosos sean descartados o ignorados. Con el software de datos grande y escalable de Big Data & Analytics, los CSP pueden extraer todos sus datos para una mejor toma de decisiones en menos tiempo. Diferentes productos y técnicas de Big Data proporcionan una plataforma de software de extremo a extremo para recopilar, preparar, analizar y presentar información sobre grandes datos. Las áreas de aplicación incluyen monitoreo del rendimiento de la red, detección de fraude, detección de churn del cliente y análisis de riesgo de crédito. Big Data & Analytics escala de productos para manejar terabytes de datos, pero la implementación de tales herramientas necesitan un nuevo tipo de sistema de base de datos basado en nube como Hadoop o procesador de cálculo paralelo a gran escala (KPU, etc.) Este curso de trabajo sobre Big Data BI para Telco cubre todas las nuevas áreas emergentes en las que los CSP están invirtiendo para obtener ganancias de productividad y abrir nuevos flujos de ingresos empresariales. El curso proporcionará una visión completa de 360 ​​grados de Big Data BI en Telco para que los tomadores de decisiones y los gerentes puedan tener una visión muy amplia y completa de las posibilidades de Big Data BI en Telco para la productividad y la ganancia de ingresos. Objetivos del Curso El objetivo principal del curso es introducir nuevas técnicas de Business Intelligence de Big Data en 4 sectores de Telecom Business (Marketing / Ventas, Operación de Red, Operación Financiera y Gestión de Relaciones con Clientes). Los estudiantes serán presentados a: Introducción a Big Data-lo que es 4Vs (volumen, velocidad, variedad y veracidad) en Big Data-Generation, extracción y gestión desde la perspectiva de Telco Cómo el analista de Big Data difiere de los analistas de datos heredados Justificación interna de Big Data - perspectiva de Tcco Introducción al ecosistema de Hadoop - familiaridad con todas las herramientas de Hadoop como colmena, cerdo, SPARC - cuándo y cómo se utilizan para resolver el problema de Big Data Cómo se extraen los datos grandes para analizar para la herramienta de análisis-cómo Business Analysis puede reducir sus puntos de dolor de la recopilación y el análisis de datos a través del enfoque de panel integrado de Hadoop Introducción básica de análisis de Insight, análisis de visualización y análisis predictivo para Telco Analítica de Churn de clientes y datos grandes: cómo Big Data analítico puede reducir el abandono de clientes y la insatisfacción de los clientes en los estudios de casos de Telco Análisis de fracaso de la red y fallos de servicio de Metadatos de red e IPDR Análisis financiero-fraude, desperdicio y estimación de ROI de ventas y datos operativos Problema de adquisición de clientes: marketing objetivo, segmentación de clientes y ventas cruzadas a partir de datos de ventas Introducción y resumen de todos los productos analíticos de Big Data y donde encajan en el espacio analítico de Telco Conclusión: cómo tomar un enfoque paso a paso para introducir Big Data Business Intelligence en su organización Público objetivo Operaciones de red, Gerentes Financieros, Gerentes de CRM y altos gerentes de TI en la oficina de Telco CIO. Analistas de Negocios en Telco Gerentes / analistas de oficina de CFO Gerentes operacionales Gerentes de control de calidad Desglose de temas diariamente: (Cada sesión es de 2 horas) Día-1: Sesión -1: Visión general del negocio de Por qué Big Data Business Intelligence en Telco. Estudios de casos de T-Mobile, Verizon, etc. Gran tasa de adaptación de datos en Telco de Norteamérica y cómo están alineando su futuro modelo de negocio y operación alrededor de Big Data BI Área de Aplicación a Escala Amplia Gestión de redes y servicios Gestión del cambio de clientes Integración de datos y visualización de Dashboard Gestión de fraude Generación de Reglas de Negocio Perfil del cliente Emisión de anuncios localizados Día-1: Sesión-2: Introducción de datos grandes-1 Características principales de Big Data: volumen, variedad, velocidad y veracidad. Arquitectura de MPP para el volumen. Almacenes de datos - esquema estático, conjunto de datos que evoluciona lentamente MPP Bases de datos como Greenplum, Exadata, Teradata, Netezza, Vertica, etc. Soluciones basadas en Hadoop - no hay condiciones sobre la estructura del dataset. Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS Adecuado para análisis analítico / no interactivo Volumen: datos de streaming de CEP Opciones típicas - productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.) Menos producción lista - Storm / S4 Bases de datos NoSQL - (columnar y clave-valor): Mejor adaptado como adjunto analítico al almacén de datos / base de datos Día-1: Sesión -3: Introducción a Big Data-2 Soluciones NoSQL KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB) Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB Almacén KV (jerárquico) - GT.m, caché KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord KV Cache - Memcached, Repcached, Coherencia, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua Tuple Store - Gigaspaces, Coord, Río Apache Base de datos de objetos - ZopeDB, DB40, Shoal Tienda de Documentos - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Bases de Datos, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris Tienda Columnar ancha - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI Variedades de datos: Introducción al problema de limpieza de datos en Big Data RDBMS - estructura estática / esquema, no promueve ágil, el ambiente exploratorio. NoSQL - estructura semi estructurada, suficiente para almacenar datos sin esquema exacto antes de almacenar datos Problemas de limpieza de datos Día-1: Sesión-4: Introducción de grandes datos-3: Hadoop Cuándo seleccionar Hadoop? ESTRUCTURADO - Los almacenes / bases de datos de datos empresariales pueden almacenar datos masivos (a un costo) pero imponen estructura (no es bueno para la exploración activa) Datos SEMI ESTRUCTURADOS - difíciles de hacer con soluciones tradicionales (DW / DB) Almacenamiento de datos = ENORME esfuerzo y estática incluso después de la implementación Por la variedad y el volumen de datos, crujido en el hardware de la materia - HADOOP H / W de productos necesarios para crear un clúster Hadoop Introducción a la reducción de mapa / HDFS MapReduce - distribuye la computación en varios servidores HDFS - hacer los datos disponibles localmente para el proceso de computación (con redundancia) Datos - pueden ser no estructurados / sin esquema (a diferencia de RDBMS) Responsabilidad del desarrollador para dar sentido a los datos Programación MapReduce = trabajo con Java (pros / contras), carga manual de datos en HDFS Día-2: Sesión 1.1: Base de datos distribuida Spark: In Memory Qué es el procesamiento "En memoria"? Spark SQL Spark SDK Spark API RDD Chispa de lib Hanna Cómo migrar un sistema Hadoop existente a Spark Día-2 Sesión -1.2: Tormenta-Procesamiento de tiempo real en Big Data Arroyos Coles Pernos Topologías Día-2: Sesión-2: Gran Sistema de Gestión de Datos Partes móviles, los nodos de cálculo de inicio / error: ZooKeeper - Para la configuración / coordinación / servicios de nombres Oleoducto / flujo de trabajo complejos: Oozie - gestionar flujo de trabajo, dependencias, conexión en cadena Implementar, configurar, administrar el clúster, actualizar etc (sys admin): Ambari En la nube: Whirr Evolución de las herramientas de la plataforma Big Data para el seguimiento Problemas de aplicación de la capa ETL Día-2: Sesión-3: Análisis predictivo en Inteligencia de Negocios -1: Técnicas Fundamentales y Aprendizaje Automático basado en BI: Introducción al aprendizaje automático Técnicas de clasificación de aprendizaje Bayesian Prediction-preparación del archivo de entrenamiento Campo aleatorio de Markov Aprendizaje supervisado y sin supervisión Extracción de características Máquinas de vectores soporte Red Neural Aprendizaje reforzado Big Data problema variable grande -Random forest (RF) Aprendizaje de representación Aprendizaje profundo Problema de Big Data Automation - Conjunto de múltiples modelos RF Automatización a través de Soft10-M LDA y modelado de temas Aprendizaje Ágil Aprendizaje basado en agentes - Ejemplo de operación de Telco Aprendizaje distribuido - Ejemplo de operación de Telco Introducción a Herramientas de código abierto para análisis predictivo: R, Rapidminer, Mahut Más escalable Analítica-Apache Hama, Spark y CMU Graph lab Día-2: Sesión-4 Análisis predictivo ecosistema-2: Problemas analíticos predictivos comunes en Telecom Análisis analítico Visualización analítica Análisis predictivo estructurado Análisis predictivo no estructurado Perfil del cliente Motor de recomendación Detección de patrones Descubrimiento de reglas / escenarios: falla, fraude, optimización Descubrimiento de la causa raíz Análisis de los sentimientos Análisis de CRM Analítica de red Análisis de texto Revisión asistida por tecnología Analisis de fraude Analítica en tiempo real Día-3: Sesion-1: Análisis de la causa de la raíz analítica de la operación de la red de fallas de la red, interrupción del servicio de los metadatos, IPDR y CRM: Uso de CPU Uso de memoria Uso de la cola QoS Temperatura del dispositivo Error de interfaz Versiones IoS Eventos de enrutamiento Variaciones de latencia Syslog analytics Paquete perdido Simulación de carga Inferencia de topología Umbral de rendimiento Trampas del dispositivo Recopilación y procesamiento de IPDR (registro detallado IP) Uso de datos IPDR para el consumo de ancho de banda del suscriptor, utilización de la interfaz de red, estado del módem y diagnóstico Información de HFC Día-3: Sesión-2: Herramientas para el análisis de fallas del servicio de red: Network Summary Dashboard: supervise las implementaciones globales de red y rastree los indicadores clave de rendimiento de su organización. Peak Period Analysis Dashboard: entiende las tendencias de aplicación y de suscriptores que impulsan la utilización máxima, con granularidad específica de la ubicación Routing Efficiency Dashboard: controla los costos de la red y crea casos de negocios para proyectos de capital con una comprensión completa de las relaciones de interconexión y tránsito Real-Time Entertainment Dashboard: las métricas de acceso que importan, incluyendo las vistas de vídeo, la duración y la calidad de la experiencia de vídeo (QoE) IPv6 Transition Dashboard: Investigue la adopción en curso de IPv6 en su red y compruebe las aplicaciones y dispositivos que impulsan las tendencias Caso-Estudio-1: El Data Miner de Alcatel-Lucent Big Network Analytics (BNA) Inteligencia móvil multidimensional (m.IQ6) Día 3: Sesión 3: Big Data BI para Marketing / Ventas -Comprendiendo ventas / marketing de datos de ventas: (Todos ellos se mostrarán con una demostración analítica predictiva en vivo) Para identificar clientes de mayor velocidad Identificar clientes para un producto determinado Para identificar el conjunto correcto de productos para un cliente (Recomendación de Motor) Técnica de segmentación del mercado Técnica de ventas cruzadas y upsale Técnica de segmentación de clientes Técnica de pronóstico de ingresos de ventas Día 3: Sesión 4: BI necesario para la oficina de Telco CFO: Descripción general de los trabajos de Business Analytics necesarios en una oficina de CFO Análisis de riesgos de nuevas inversiones Ingresos, previsión de beneficios Nuevo pronóstico de adquisición de clientes Predicción de pérdidas Fraude analítico sobre las finanzas (detalles de la próxima sesión) Día-4: Sesión-1: prevención del fraude BI de Big Data en analítica de Telco-Fraude: Fuga de ancho de banda / fraude de ancho de banda Fraude de proveedores / sobre facturación de proyectos Devolución de clientes / reclamaciones de fraudes Fraude de reembolso de viajes Día-4: Sesión-2: De la predicción de agitación a la prevención de rechazo: 3 Tipos de Churn: Activo / Deliberado, Rotacional / Incidental, Pasivo Involuntario 3 clasificación de clientes batidos: Total, oculto, parcial Comprender las variables de CRM para la rotación Recopilación de datos de comportamiento del cliente Colección de datos de percepción de clientes Recopilación de datos demográficos de los clientes Limpieza de datos CRM Datos CRM no estructurados (llamada de cliente, tickets, correos electrónicos) y su conversión a datos estructurados para el análisis de Churn Social Media CRM-nueva forma de extraer el índice de satisfacción del cliente Estudio de Caso-1: T-Mobile USA: Reducción del Churn en un 50% Día-4: Sesión-3: Cómo usar el análisis predictivo para el análisis de la causa raíz de la disconformidad del cliente: Estudio de caso -1: vincular la insatisfacción con los problemas - Contabilidad, fallas de ingeniería como la interrupción del servicio, servicio de ancho de banda deficiente Estudio de caso-2: Cuadro de control de QA de Big Data para realizar un seguimiento del índice de satisfacción del cliente desde varios parámetros, como escalaciones de llamadas, criticidad de problemas, eventos pendientes de interrupción del servicio, etc. Día-4: Sesión-4: Big Data Dashboard para una rápida accesibilidad de diversos datos y visualización: Integración de la plataforma de aplicaciones existente con Big Data Dashboard Gestión de grandes datos Estudio de caso de Big Data Dashboard: Tableau y Pentaho Utilice la aplicación Big Data para impulsar el anuncio basado en la ubicación Sistema de seguimiento y gestión Día-5: Sesión-1: Cómo justificar la implementación de Big Data BI dentro de una organización: Definición del ROI para la implementación de Big Data Estudios de caso para el ahorro Analista Tiempo de recolección y preparación de datos - Aumento de la ganancia de productividad Estudios de caso de la ganancia de ingresos de clientes churn Ganancia de ingresos de anuncios basados en ubicaciones y otros anuncios orientados Un enfoque de hoja de cálculo integrado para calcular aprox. Gasto vs. Ganancia / ahorro de ingresos de la implementación de Big Data. Día 5: Sesión 2: Procedimiento paso a paso para reemplazar el sistema de datos heredados a Big Data System: Entender la hoja de ruta práctica de Big Data Migration Cuáles son la información importante necesaria antes de diseñar una implementación de Big Data Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos Cómo estimar el crecimiento de los datos Estudios de caso en 2 Telco Día 5: Sesión 3 y 4: Revisión de los proveedores de Big Data y revisión de sus productos. Sesión de Q / A: AccentureAlcatel-Lucent Amazon -A9 APTEAN (Anteriormente CDC Software) Cisco Systems Cloudera Dell CEM GoodData Corporation Guavus Hitachi Data Systems Hortonworks Huawei HP IBM Informatica Intel Jaspersoft Microsoft MongoDB (Anteriormente 10Gen) MU Sigma Netapp Soluciones Opera Oráculo Pentaho Platfora Qliktech Cuántico Espacio en bastidor Revolution Analytics Fuerza de ventas SAVIA Instituto SAS Sisense Software AG / Terracota Automatización Soft10 Splunk Cuadrado Supermicro Tabla Software Teradata Piensa en Big Analytics Tidemark Sistemas VMware (parte de EMC)
solrdev Solr para Desarrolladores 21 horas Este curso introduce a los estudiantes a la plataforma Solr. A través de una combinación de conferencias, discusiones y laboratorios, los estudiantes tendrán experiencia en la configuración de una búsqueda e indexación eficaces. La clase comienza con la instalación y configuración básica de Solr y enseña a los asistentes las funciones de búsqueda de Solr. Los estudiantes obtendrán experiencia con facetas, indexación y relevancia de búsqueda entre otras características centrales de la plataforma Solr. El curso se completa con una serie de temas avanzados, incluyendo corrección ortográfica, sugerencias, Multicore y SolrCloud. Objetivo general Proporcione a desarrolladores web experimentados y personal técnico una introducción completa a la plataforma de búsqueda Solr. Enseñe a las habilidades profundas del revelador del software que crean soluciones de la búsqueda. I. Fundamentos Información acerca de Solr Instalación y funcionamiento de Solr Cómo añadir contenido a Solr Lectura de una respuesta XML de Solr Cambio de parámetros en la URL Uso de la interfaz de exploración Labs: instala Solr, ejecuta consultas II. buscando Clasificación de resultados Parsers de consulta Más consultas Parámetros de petición de cableado Agregar campos a la búsqueda predeterminada Faceting Agrupamiento de resultados Labs: consultas avanzadas, experimento con búsqueda facetada III. Indexación Cómo añadir su propio contenido a Solr Eliminación de datos de solr Construyendo una búsqueda de librería Adición de datos de libros Exploración de los datos del libro Procesador de actualización Dedupe Labs: indexación de varias colecciones de documentos IV. Actualización de esquemas Agregar campos al esquema Analizando el texto Labs: personalizar el esquema de Solr V. Relevancia Ponderación de campo Consultas de frases Consultas de funciones Fuzzier búsqueda Suena como Labs: implementar consultas de relevancia VI. Funciones ampliadas Más como este Geoespacial Corrección ortográfica Sugerencias Destacando Pseudo-campos Pseudo-uniones Multi lenguaje Labs: implementación de corrector ortográfico y sugerencias VII. Multicore Adición de más tipos de datos Labs: creación y administración de núcleos VIII. SolrCloud Introducción Cómo funciona SolrCloud Cometer estrategias Guardabosque Gestión de archivos de configuración de Solr Laboratorios: administrar SolrCloud IX. Desarrollo con Solr API Hablando con Solr a través de REST Configuración Indexación y búsqueda Solr y Primavera Labs: código para leer y escribir índice Solr, ejercicio en primavera con Solr X. Desarrollo con Lucene API Creación de un índice de Lucene Búsqueda, visualización, depuración Extracción de texto con Tika Escala de índices de Lucene en clusters Lucene ajuste de rendimiento Labs: codificación con Lucene XI. Conclusión Otros enfoques para buscar ElasticSearch DataStax Enterprise: Solr + Cassandra Integración de Cloudera Solr Difuminar Direcciones futuras
zeppelin Zeppelin for interactive data analytics 14 horas Apache Zeppelin is a web-based notebook for capturing, exploring, visualizing and sharing Hadoop and Spark based data. This instructor-led, live training introduces the concepts behind interactive data analytics and walks participants through the deployment and usage of Zeppelin in a single-user or multi-user environment. By the end of this training, participants will be able to: Install and configure Zeppelin Develop, organize, execute and share data in a browser-based interface Visualize results without referring to the command line or cluster details Execute and collaborate on long workflows Work with any of a number of plug-in language/data-processing-backends, such as Scala ( with Apache Spark ), Python ( with Apache Spark ), Spark SQL, JDBC, Markdown and Shell. Integrate Zeppelin with Spark, Flink and Map Reduce Secure multi-user instances of Zeppelin with Apache Shiro Audience Data engineers Data analysts Data scientists Software developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
iotemi Internet de las Cosas (IoT) para Empresarios, Gerentes e Inversores 21 horas A diferencia de otras tecnologías, IoT es mucho más complejo que abarca casi todas las ramas del núcleo de Ingeniería: Mecánica, Electrónica, Firmware, Middleware, Cloud, Analytics y Mobile. Para cada una de sus capas de ingeniería, hay aspectos de economía, estándares, regulaciones y estado de la técnica en evolución. Esto es para los primeros tiempos, se ofrece un curso modesto para cubrir todos estos aspectos críticos de la ingeniería de IoT. Resumen Un programa de entrenamiento avanzado que cubre el estado actual del arte en Internet de las Cosas Cortes en múltiples dominios de tecnología para desarrollar el conocimiento de un sistema IoT y sus componentes y cómo puede ayudar a las empresas y organizaciones. Demo en vivo de las aplicaciones modelo IoT para mostrar implementaciones prácticas de IoT en diferentes dominios de la industria, como Industrial IoT, Smart Cities, Retail, Travel & Transportation y casos de uso relacionados con dispositivos conectados y cosas Público objetivo Gerentes responsables de los procesos comerciales y operativos dentro de sus respectivas organizaciones y quieren saber cómo aprovechar IoT para hacer que sus sistemas y procesos sean más eficientes. Emprendedores e Inversores que buscan desarrollar nuevas empresas y desean desarrollar una mejor comprensión del panorama de la tecnología IoT para ver cómo pueden aprovecharla de manera efectiva. Duración 3 días (8 horas / día) Las estimaciones para Internet of Things o el valor de mercado de IoT son masivas, ya que, por definición, el IoT es una capa integrada y difusa de dispositivos, sensores y potencia informática que superpone a industrias de consumo, de empresa a empresa y gubernamentales. El IoT representará un número cada vez mayor de conexiones: 1.900 millones de dispositivos en la actualidad y 9.000 millones en 2018. Ese año, será aproximadamente igual a la cantidad de teléfonos inteligentes, televisores inteligentes, tabletas, computadoras portátiles y PC combinadas. En el espacio para el consumidor, muchos productos y servicios ya han entrado en el IoT, incluyendo cocina y electrodomésticos, estacionamiento, RFID, productos de iluminación y calefacción, y varias aplicaciones en Internet Industrial. Sin embargo, las tecnologías subyacentes de IoT no son nada nuevas, ya que la comunicación M2M existía desde el nacimiento de Internet. Sin embargo, lo que cambió en los últimos años es la aparición de tecnologías inalámbricas de bajo costo agregadas por la abrumadora adaptación de teléfonos inteligentes y tabletas en todos los hogares. El crecimiento explosivo de los dispositivos móviles condujo a la demanda actual de IoT. Debido a las oportunidades ilimitadas en el negocio de IoT, un gran número de pequeños y medianos empresarios se subieron al carro de la fiebre del oro de IoT. También debido a la aparición de la electrónica de código abierto y la plataforma IoT, el costo de desarrollo del sistema IoT y la gestión adicional de su producción considerable es cada vez más asequible. Los propietarios de productos electrónicos existentes están experimentando presión para integrar su dispositivo con Internet o la aplicación móvil. Esta capacitación está destinada a una revisión tecnológica y empresarial de una industria emergente para que los entusiastas / emprendedores de IoT puedan comprender los conceptos básicos de tecnología y negocio de IoT. Objetivo del curso El objetivo principal del curso es presentar opciones tecnológicas emergentes, plataformas y estudios de casos de implementación de IoT en automatización de hogares y ciudades (hogares y ciudades inteligentes), Internet Industrial, salud, Gobierno, Mobile Cellular y otras áreas. Introducción básica de todos los elementos de IoT-Mechanical, electrónica / plataforma de sensores, protocolos inalámbricos y alámbricos, integración móvil a electrónica, integración móvil a empresa, análisis de datos y plano de control total Protocolos inalámbricos M2M para IoT-WiFi, Zigbee / Zwave, Bluetooth, ANT +: ¿Cuándo y dónde usar cuál? Aplicación móvil / de escritorio / web para registro, adquisición de datos y control - Plataforma de adquisición de datos M2M disponible para IoT - Xively, Omega y NovoTech, etc. Problemas de seguridad y soluciones de seguridad para IoT Plataforma electrónica de código abierto / comercial para IoT-Raspberry Pi, Arduino, ArmMbedLPC, etc. Plataforma cloud de empresa abierta / comercial para aplicaciones AWS-IoT, Azure -IOT, Watson-IOT en la nube, además de otras nubes menores de IoT Estudios de negocios y tecnología de algunos de los dispositivos comunes de IoT como Domótica, Alarma de humo, vehículos, militares, salud en el hogar, etc. Sesión 1: Visión general del negocio de Why IoT es tan importante Estudios de caso de Nest, CISCO e industrias principales Tasa de adaptación de IoT en América del Norte y cómo están alineando su futuro modelo comercial y operación alrededor de IoT Área de aplicación de gran escala Smart House y Smart City Internet industrial Autos inteligentes Wearables Asistencia sanitaria en el hogar Generación de reglas comerciales para IoT Arquitectura de 3 capas de Big Data: física (sensores), comunicación e inteligencia de datos Sesión 2 - Introducción de IoT: Todo sobre los sensores - Electrónica Función básica y arquitectura de un sensor: cuerpo del sensor, mecanismo del sensor, calibración del sensor, mantenimiento del sensor, estructura de costos y precios, legado y red moderna de sensores: todos los conceptos básicos sobre los sensores Desarrollo de electrónica de sensores: IoT frente a legado y estilo de diseño de fuente abierta versus PCB tradicional Desarrollo de protocolos de comunicación de sensores: historia hasta nuestros días. Protocolos heredados como Modbus, relé, HART hasta Zigbee, Zwave, X10, Bluetooth, ANT, etc. Controlador comercial para el despliegue de sensores - Regulación FDA / EPA, detección de fraude / templado, supervisión, control de calidad y gestión de procesos Diferentes tipos de técnicas de calibración: manual, automatización, infield, calibración primaria y secundaria, y su implicación en IoT Opciones de alimentación para sensores: batería, energía solar, Witricity, Mobile y PoE Manos en el entrenamiento con silicio individual y otros sensores como temperatura, presión, vibración, campo magnético, factor de potencia, etc. Demo: registro de datos de la temperatura de un senso Session 3 - Fundamental of M2M communication - Sensor Network and Wireless protocol What is a sensor network? What is ad-hoc network? Wireless vs. Wireline network WiFi- 802.11 families: N to S - application of standards and common vendors. Zigbee and Zwave - advantage of low power mesh networking. Long distance Zigbee. Introduction to different Zigbee chips. Bluetooth / BLE: Low power vs high power, speed of detection, class of BLE. Introduction of Bluetooth vendors & their review. Creating network with Wireless protocols such as Piconet by BLE Protocol stacks and packet structure for BLE and Zigbee Other long distance RF communication link LOS vs NLOS links Capacity and throughput calculation Application issues in wireless protocols - power consumption, reliability, PER, QoS, LOS Sensor networks for WAN deployment using LPWAN. Comparison of various emerging protocols such as LoRaWAN, NB-IoT etc. Hands on training with sensor network Demo: Device control using BLE Sesión 3 - Fundamental de la comunicación M2M - Sensor de red y protocolo inalámbrico ¿Qué es una red de sensores? ¿Qué es una red ad-hoc? Red inalámbrica frente a línea alámbrica Familias WiFi- 802.11: N a S: aplicación de estándares y proveedores comunes. Zigbee y Zwave: ventaja de la red de malla de baja potencia. Larga distancia Zigbee. Introducción a diferentes chips Zigbee. Bluetooth / BLE: baja potencia vs alta potencia, velocidad de detección, clase de BLE. Introducción de proveedores de Bluetooth y su revisión. Crear una red con protocolos inalámbricos como Piconet by BLE Protocolo de pilas y estructura de paquetes para BLE y Zigbee Otro enlace de comunicación de RF de larga distancia Enlaces de LOS vs NLOS Cálculo de capacidad y rendimiento Cuestiones de aplicación en protocolos inalámbricos: consumo de energía, confiabilidad, PER, QoS, LOS Redes de sensores para la implementación WAN usando LPWAN. Comparación de varios protocolos emergentes como LoRaWAN, NB-IoT, etc. Manos en el entrenamiento con red de sensores Demo: control de dispositivo usando BLE Sesión 4: Revisión de la Plataforma Electrónica, producción y proyección de costos. Diseño de PCB vs FPGA vs ASIC: cómo tomar una decisión Electrónica de prototipos vs Electrónica de producción Certificado QA para IoT- CE / CSA / UL / IEC / RoHS / IP65: ¿Qué son y cuándo se necesitan? Introducción básica del diseño de PCB de múltiples capas y su flujo de trabajo Confiabilidad electrónica: concepto básico de FIT y tasa de mortalidad temprana Pruebas ambientales y de confiabilidad: conceptos básicos Plataformas básicas de código abierto: Arduino, Raspberry Pi, Beaglebone, cuando sea necesario? Sesión 5 - Concebir un nuevo producto IoT - Documento de requerimiento del producto para IoT Estado del presente y revisión de la tecnología existente en el mercado. Sugerencia para nuevas características y tecnologías basadas en análisis de mercado y problemas de patentes. Especificaciones técnicas detalladas para nuevos productos: sistema, software, hardware, mecánico, instalación, etc. Requisitos de empaquetado y documentación Requisitos de servicio y asistencia al cliente Diseño de alto nivel (HLD) para la comprensión del concepto de producto. Plan de liberación para la introducción progresiva de las nuevas funciones Habilidad establecida para el equipo de desarrollo y el plan de proyecto propuesto: costo y duración Precio de fabricación objetivo Sesión 6: Introducción a la plataforma de aplicaciones móviles para IoT Pila de protocolos de aplicación móvil para IoT Integración móvil a servidor: ¿cuáles son los factores a tener en cuenta? ¿Cuál es la capa inteligente que se puede introducir en el nivel de la aplicación móvil? iBeacon en IoS Ventana azul Amazon AWS-IoT Interfaces web para aplicaciones móviles (REST / WebSockets) Protocolos de capa de aplicación IoT (MQTT / CoAP) Seguridad para IoT middleware: claves, token y generación de contraseñas aleatorias para la autenticación de los dispositivos de puerta de enlace. Demo: aplicación móvil para rastrear botes de basura habilitados para IoT Sesión 7 - Aprendizaje automático para IoT inteligente Introducción al aprendizaje automático Aprender técnicas de clasificación Bayesian Prediction: preparación del archivo de entrenamiento Máquinas de vectores soporte Imagen y video analítico para IoT Fraude y alerta analítica a través de IoT Integración de identificación bio-métrica con IoT Analítica en tiempo real / Analítica de flujo Problemas de escalabilidad de IoT y aprendizaje automático ¿Cuál es la implementación arquitectónica del aprendizaje automático para IoT? Demo: usando el algoritmo KNN para el análisis de regresión Demo: clasificación basada en SVM para análisis de imagen y video Sesión 8: Analytic Engine para IoT Análisis analítico Visualización analítica Analítica predictiva estructurada Analítica predictiva no estructurada Motor de recomendación Detección de patrones Descubrimiento de reglas / escenarios: falla, fraude, optimización Descubrimiento de causa raíz Sesión 9 - Seguridad en la implementación de IoT Por qué la seguridad es absolutamente esencial para IoT Mecanismo de violación de seguridad en capa IOT Tecnologías que mejoran la privacidad Fundamental de seguridad de red Implementación de cifrado y criptografía para datos de IoT Estándar de seguridad para plataforma disponible Legislación europea para la seguridad en la plataforma IoT Inicio seguro Autenticación del dispositivo Cortafuegos e IPS Actualizaciones y parches Sesión 10 - Implementación de la base de datos para IoT: plataformas IoT basadas en la nube SQL vs NoSQL: cuál es bueno para su aplicación de IoT Fuente abierta vs. Base de datos con licencia Plataforma en la nube M2M disponible Datos de la serie Cassandra -Time Mongo-DB Omega Ayla Libellium Plataforma CISCO M2M Plataforma AT & T M2M Plataforma Google M2M Sesión 11: algunos sistemas comunes de IoT Automatización del hogar Optimización energética en el hogar Automotriz-OBD IoT-Lock Alarma de humo inteligente BAC (monitoreo de alcohol en sangre) para toxicómanos en libertad condicional Pet cam para amantes de las mascotas Wearable IOT Sistema de venta de boletos para estacionamientos móviles Rastreo de ubicación interior en tienda minorista Cuidado de la salud en el hogar Reloj deportivo inteligente Demo: aplicación de ciudad inteligente con IoT Demo: caso de uso minorista, de transporte y logística para IoT Sesión 12: Big Data para IoT 4V- Volumen, velocidad, variedad y veracidad de Big Data Por qué Big Data es importante en IoT Big Data vs datos heredados en IoT Hadoop para IoT: ¿cuándo y por qué? Técnica de almacenamiento para imágenes, datos geoespaciales y de video Base de datos distribuida: Cassandra como ejemplo Conceptos básicos de computación paralela para IoT Arquitectura de servicios micro
rneuralnet Red Neuronal en R 14 horas Este curso es una introducción a la aplicación de redes neuronales en problemas del mundo real utilizando el software R-project. Introducción a las Redes Neuronales Qué son las redes neuronales? Cuál es el estado actual en la aplicación de redes neuronales Redes Neuronales vs modelos de regresión Aprendizaje supervisado y no supervisado Visión general de los paquetes disponibles Nnet, neuralnet y otros Diferencias entre los paquetes y las limitaciones de itls Visualización de redes neuronales Aplicación de redes neuronales Concepto de neuronas y redes neuronales Un modelo simplificado del cerebro Oportunidades neuronales Problema XOR y la naturaleza de la distribución de valores La naturaleza polimórfica de la sigmoide Otras funciones activadas Construcción de redes neuronales Concepto de neuronas conectadas Red neuronal como nodos Construyendo una red Neuronas Capas Escamas Datos de entrada y salida Rango 0 a 1 Normalización Redes neuronales de aprendizaje Propagación hacia atrás Propagación de pasos Algoritmos de entrenamiento en red Rango de aplicación Estimacion Problemas con la posibilidad de aproximación por Ejemplos OCR y reconocimiento de patrones de imagen Otras aplicaciones Implementación de un trabajo de modelado de redes neuronales que predice los precios
storm Apache Storm 28 horas Apache Storm is a distributed, real-time computation engine used for enabling real-time business intelligence. It does so by enabling applications to reliably process unbounded streams of data (a.k.a. stream processing). "Storm is for real-time processing what Hadoop is for batch processing!" In this instructor-led live training, participants will learn how to install and configure Apache Storm, then develop and deploy an Apache Storm application for processing big data in real-time. Some of the topics included in this training include: Apache Storm in the context of Hadoop Working with unbounded data Continuous computation Real-time analytics Distributed RPC and ETL processing Request this course now! Audience Software and ETL developers Mainframe professionals Data scientists Big data analysts Hadoop professionals Format of the course     Part lecture, part discussion, exercises and heavy hands-on practice Request a customized course outline for this training!
samza Samza for stream processing 14 horas Apache Samza is an open-source near-realtime, asynchronous computational framework for stream processing.  It uses Apache Kafka for messaging, and Apache Hadoop YARN for fault tolerance, processor isolation, security, and resource management. This instructor-led, live training introduces the principles behind messaging systems and distributed stream processing, while walking participants through the creation of a sample Samza-based project and job execution. By the end of this training, participants will be able to: Use Samza to simplify the code needed to produce and consume messages Decouple the handling of messages from an application Use Samza to implement near-realtime asynchronous computation Use stream processing to provide a higher level of abstraction over messaging systems Audience Developers Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
IntroToAvro Apache Avro: Serialización de Datos para Aplicaciones Distribuidas 14 horas Este curso es para Desarrolladores Formato del curso Conferencias, práctica práctica, pequeñas pruebas en el camino para medir la comprensión Principios de la computación distribuida Apache Spark Hadoop Principios de serialización de datos Cómo se pasa el objeto de datos por la red Serialización de objetos Enfoques de serialización Ahorro Buffers de protocolo Apache Avro estructura de datos tamaño, velocidad, características de formato almacenamiento persistente de datos integración con lenguajes dinámicos tipeo dinámico esquemas datos sin etiquetar gestión del cambio Serialización de datos y computación distribuida Avro como un subproyecto de Hadoop Serialización de Java Serialización Hadoop Serialización Avro Usando Avro con Colmena (AvroSerDe) Cerdo (AvroStorage) Portar marcos de RPC existentes
apacheh Capacitación de Administrador para Apache Hadoop 35 horas Audiencia: El curso está dirigido a especialistas en TI que buscan una solución para almacenar y procesar grandes conjuntos de datos en un entorno de sistema distribuido Gol: Conocimiento profundo sobre administración de clúster de Hadoop. 1: HDFS (17%) Describir la función de Daemons HDFS Describir el funcionamiento normal de un clúster Apache Hadoop, tanto en el almacenamiento de datos como en el procesamiento de datos. Identificar las características actuales de los sistemas informáticos que motivan un sistema como Apache Hadoop. Clasifique los objetivos principales del diseño de HDFS Dado un escenario, identifique el caso de uso apropiado para la Federación HDFS Identificar los componentes y el daemon de un clúster HDFS HA-Quorum Analizar el papel de la seguridad HDFS (Kerberos) Determinar la mejor opción de serialización de datos para un escenario dado Describir rutas de lectura y escritura de archivos Identificar los comandos para manipular archivos en el Shell del sistema de archivos Hadoop 2: YARN y MapReduce versión 2 (MRv2) (17%) Comprender cómo la actualización de un clúster de Hadoop 1 a Hadoop 2 afecta a la configuración del clúster Entender cómo implementar MapReduce v2 (MRv2 / YARN), incluyendo todos los daemons YARN Entender la estrategia básica de diseño de MapReduce v2 (MRv2) Determinar cómo YARN gestiona las asignaciones de recursos Identificar el flujo de trabajo de MapReduce que se ejecuta en YARN Determine qué archivos debe cambiar y cómo migrar un clúster de MapReduce versión 1 (MRv1) a MapReduce versión 2 (MRv2) que se ejecuta en YARN. 3: Hadoop Cluster Planning (16%) Principales puntos a considerar al elegir el hardware y los sistemas operativos para alojar un clúster Apache Hadoop. Analizar las opciones al seleccionar un sistema operativo Comprender la afinación del núcleo y el intercambio de discos Dado un escenario y un patrón de carga de trabajo, identifique una configuración de hardware adecuada al escenario Dado un escenario, determine los componentes del ecosistema que su clúster necesita ejecutar para cumplir con el SLA Dimensionamiento del clúster: dado el escenario y la frecuencia de ejecución, identifique los detalles de la carga de trabajo, incluyendo CPU, memoria, almacenamiento, E / S de disco Tamaño y configuración del disco, incluidos JBOD frente a RAID, SAN, virtualización y requisitos de tamaño de disco en un clúster Topologías de red: comprender el uso de la red en Hadoop (para HDFS y MapReduce) y proponer o identificar componentes clave de diseño de red para un escenario dado 4: Instalación y administración de clústeres Hadoop (25%) Dado un escenario, identifique cómo el clúster manejará fallas de disco y máquina Analizar una configuración de registro y registrar el formato de archivo de configuración Comprender los conceptos básicos de las métricas de Hadoop y el monitoreo de la salud de los clústeres Identificar la función y el propósito de las herramientas disponibles para el monitoreo de clusters Ser capaz de instalar todos los componentes del ecosistema en CDH 5, incluyendo (pero no limitado a): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive y Pig Identificar la función y el propósito de las herramientas disponibles para administrar el sistema de archivos Apache Hadoop 5: Gestión de recursos (10%) Entender los objetivos generales de diseño de cada uno de los planificadores de Hadoop Dado un escenario, determine cómo el Planificador FIFO asigna recursos de clúster Dado un escenario, determine cómo el planificador justo asigna los recursos del clúster bajo YARN Dado un escenario, determine cómo el Programador de capacidad asigna recursos de clúster 6: Monitoreo y registro (15%) Comprender las funciones y características de las capacidades de recopilación de métricas de Hadoop Analizar las interfaces de usuario de Web de NameNode y JobTracker Entender cómo supervisar demonios de clúster Identificar y supervisar el uso de la CPU en los nodos maestros Describir cómo supervisar la asignación de intercambio y memoria en todos los nodos Identificar cómo ver y administrar los archivos de registro de Hadoop Interpretar un archivo de registro
glusterfs GlusterFS for System Administrators 21 horas GlusterFS is an open-source distributed file storage system that can scale up to petabytes of capacity. GlusterFS is designed to provide additional space depending on the user's storage requirements. A common application for GlusterFS is cloud computing storage systems. In this instructor-led training, participants will learn how to use normal, off-the-shelf hardware to create and deploy a storage system that is scalable and always available.  By the end of the course, participants will be able to: Install, configure, and maintain a full-scale GlusterFS system. Implement large-scale storage systems in different types of environments. Audience System administrators Storage administrators Format of the Course Part lecture, part discussion, exercises and heavy hands-on practice. Introduction to GlusterFS     Terminologies used Overview of GlusterFS architecture Installing of the GlusterFS Controlling and monitoring the installed GlusterFS Using the Gluster Console Manager Creating the Trusted Storage Pools Understanding of the volume types Creating the GlusterFS client Understanding geo-replication Managing the GLusterFS volume, client, geo-replication and directory quota GlusterFS workload monitoring Accessing the control lists Monitoring the unified file and object storage Monitoring the Hadoop compatible storage Discussing the snapshots GlusterFS troubleshooting Closing Remarks
alluxio Alluxio: Unifying disparate storage systems 7 horas Alexio is an open-source virtual distributed storage system that unifies disparate storage systems and enables applications to interact with data at memory speed. It is used by companies such as Intel, Baidu and Alibaba. In this instructor-led, live training, participants will learn how to use Alexio to bridge different computation frameworks with storage systems and efficiently manage multi-petabyte scale data as they step through the creation of an application with Alluxio. By the end of this training, participants will be able to: Develop an application with Alluxio Connect big data systems and applications while preserving one namespace Efficiently extract value from big data in any storage format Improve workload performance Deploy and manage Alluxio standalone or clustered Audience Data scientist Developer System administrator Format of the course Part lecture, part discussion, exercises and heavy hands-on practice To request a customized course outline for this training, please contact us.  
osovv Descripción de OpenStack 7 horas El curso está dedicado a ingenieros y arquitectos de TI que buscan una solución para alojar una nube IaaS (Infraestructura como servicio) privada o pública. Esta es también una gran oportunidad para que los administradores de TI obtengan conocimiento sobre las posibilidades que podrían ser habilitadas por OpenStack. Antes de gastar mucho dinero en la implementación de OpenStack, podría considerar todos los pros y contras asistiendo a nuestro curso. Este tema también está disponible como consultoría individual. Objetivo del curso: Obtener conocimientos básicos sobre OpenStack Introducción: Qué es OpenStack? Fundamentos de Cloud Computing OpenStack vs VMware Evolución de OpenStack Distribuciones de OpenStack Lanzamientos de OpenStack Soluciones de implementación OpenStack Los competidores de OpenStack Servicios OpenStack: Servicios de apoyo Piedra clave Vistazo Estrella nueva Neutrón Ceniza Horizonte Rápido Calor Ceilómetro Trove Sáhara Irónico Zaqar Manila Designado Barbacana Arquitectura de OpenStack: Funciones de nodo Alta disponibilidad Escalabilidad Segregación Apoyo Supervisión Portal de autoservicio Interfaces Cuotas Flujos de trabajo Programadores Migraciones Balanceo de carga Autodescaneo Demostración: Cómo descargar y ejecutar archivos RC Cómo crear una red externa en Neutron Cómo subir una imagen a Glance Cómo crear un nuevo sabor en Nova Cómo actualizar las cuotas predeterminadas de Nova y Neutron Cómo crear un nuevo inquilino en Keystone Cómo crear un nuevo usuario en Keystone Cómo administrar roles en Keystone Cómo crear una red de inquilinos en Neutron Cómo crear un router en Neutron Cómo administrar las interfaces del router en Neutron Cómo actualizar grupos de seguridad en Neutron Cómo subir RSA par de claves al proyecto Cómo asignar IPs flotantes al proyecto Cómo iniciar una instancia de imagen en Nova Cómo asociar IPs flotantes con instancias Cómo crear un nuevo volumen en Cinder Cómo adjuntar el volumen a la instancia Cómo tomar una instantánea de la instancia Cómo tomar una instantánea del volumen Cómo iniciar una instancia desde una instantánea en Nova Cómo crear un volumen desde instantánea en Cinder

Próximos Cursos

Other regions

Cursos de Fin de Semana de Big Data, Capacitación por la Tarde de Big Data, Big Data boot camp, Clases de Big Data , Big Data con instructor, Capacitación empresarial de Big Data, Programas de capacitación de Big Data, Capacitador de Big Data, Big Data coaching,Capacitación de Fin de Semana de Big Data, Cursos por la Tarde de Big Data, Clases de Big Data , Big Data en sitio, Clases Particulares de Big Data, Cursos de Formación de Big Data, Instructor de Big Data, Cursos en linea de Big Data, Cursos Privados de Big Data

Promociones

Descuentos en los Cursos

Respetamos la privacidad de su dirección de correo electrónico. No vamos a pasar o vender su dirección a otros.
Siempre puede cambiar sus preferencias o anular la suscripción por completo.

Algunos de nuestros clientes