Curso de Big Data Business Intelligence para análisis de inteligencia criminal

Last updated

Código del Curso

bigdatabicriminal

Duración

35 horas (por lo general 5 días incluidas las pausas)

Requerimientos

  • Conocimiento de los procesos de aplicación de la ley y los sistemas de datos
  • Conocimiento básico de SQL / Oracle o base de datos relacional
  • Comprensión básica de las estadísticas (a nivel de hoja de cálculo)

Descripción General

Los avances en las tecnologías y la creciente cantidad de información están transformando la forma en que se lleva a cabo la aplicación de la ley. Los desafíos que plantea Big Data son casi tan desalentadores como la promesa de Big Data. Almacenar datos de manera eficiente es uno de estos desafíos; analizarlo efectivamente es otro.

En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán la mentalidad con la cual abordarán las tecnologías de Big Data, evaluarán su impacto en los procesos y políticas existentes, e implementarán estas tecnologías con el propósito de identificar la actividad delictiva y prevenir el delito. Se examinarán estudios de casos de organizaciones de orden público de todo el mundo para obtener información sobre sus enfoques, desafíos y resultados de adopción.

Al final de esta capacitación, los participantes podrán:

  • Combine la tecnología Big Data con procesos tradicionales de recopilación de datos para armar una historia durante una investigación
  • Implementar soluciones industriales de almacenamiento y procesamiento de big data para el análisis de datos
  • Preparar una propuesta para la adopción de las herramientas y procesos más adecuados para permitir un enfoque basado en datos para la investigación criminal

Audiencia

  • Especialistas en aplicación de la ley con experiencia técnica

Formato del curso

  • Conferencia de parte, discusión en parte, ejercicios y práctica práctica

Programa del Curso

Día 01

Descripción general de Big Data Business Intelligence para análisis de inteligencia criminal

  • Estudios de caso de la policía - Predicción policial
  • La tasa de adopción de Big Data en las agencias de aplicación de la ley y cómo están alineando su operación futura con Big Data Predictive Analytics
  • Soluciones tecnológicas emergentes como sensores de disparo, video de vigilancia y redes sociales
  • Usar la tecnología Big Data para mitigar la sobrecarga de información
  • Interconectar Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitantes en análisis predictivo
  • Visualización de integración de datos y tablero de instrumentos
  • Gestión de fraude
  • Reglas de negocios y detección de fraude
  • Detección y perfil de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad.
  • Arquitectura MPP (Massively Parallel Processing)
  • Almacenes de datos: esquema estático, conjunto de datos en evolución lenta
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: sin condiciones en la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
  • Apache Spark para procesamiento de flujo
  • Lote adecuado para analítico / no interactivo
  • Volumen: datos de transmisión CEP
  • Opciones típicas: productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción preparada - Storm / S4
  • Bases de datos NoSQL - (columna y clave-valor): Mejor adaptado como complemento analítico para almacén de datos / base de datos

Soluciones NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (jerárquica) - GT.m, caché
  • KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda Tuple - Gigaspaces, Coord, Apache River
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplia tienda en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción a los problemas de limpieza de datos en Big Data

  • RDBMS: estructura / esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL: estructura semi estructurada, suficiente para almacenar datos sin un esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Hadoop

  • Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes de datos / bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW / DB)
  • Almacenamiento de datos = esfuerzo ENORME y estático incluso después de la implementación
  • Por la variedad y el volumen de datos, crujió en hardware de productos básicos - HADOOP
  • Commodity H / W necesario para crear un clúster de Hadoop

Introducción a Map Reduce / HDFS

  • MapReduce: distribuya la informática en varios servidores
  • HDFS: haga que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden estar desestructurados / sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programación MapReduce = trabajando con Java (pros / contras), cargando datos manualmente en HDFS

Día 02

Big Data Ecosystem - Construyendo Big Data ETL (Extraer, Transformar, Cargar) - ¿Qué herramientas Big Data usar y cuándo?

  • Hadoop vs. otras soluciones NoSQL
  • Para el acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) en la parte superior de Hadoop
  • Acceso aleatorio a los datos pero restricciones impuestas (max 1 PB)
  • No es bueno para análisis ad-hoc, bueno para el registro, el conteo, las series de tiempo
  • Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC / ODBC)
  • Flume - Transmite datos (por ejemplo, datos de registro) a HDFS

Big Data Management System

  • Piezas móviles, nodos de cálculo de inicio / error: ZooKeeper: para servicios de configuración / coordinación / nombramiento
  • Oleoducto / flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias, la cadena de margaritas
  • Implemente, configure, administre el clúster, actualice, etc. (sys admin): Ambari
  • En la nube: Whirr

Análisis Predictivo - Técnicas Fundamentales y Aprendizaje Automático basado en Inteligencia Empresarial

  • Introducción al aprendizaje automático
  • Técnicas de clasificación de aprendizaje
  • Predicción bayesiana: preparación de un archivo de entrenamiento
  • Máquinas de vectores soporte
  • KNN p-Tree Algebra & mining vertical
  • Redes neuronales
  • Problema variable grande de Big Data: bosque aleatorio (RF)
  • Problema de Big Data Automation - Conjunto de varios modelos RF
  • Automatización a través de Soft10-M
  • Herramienta analítica de texto-Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a las herramientas de código abierto para el análisis predictivo: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosystem y su aplicación en Análisis de Inteligencia Criminal

  • La tecnología y el proceso de investigación
  • Analítica de Insight
  • Análisis de visualización
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Amenaza / fraude / perfil de vendedor
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas / escenarios: falla, fraude, optimización
  • Descubrimiento de causa raíz
  • Análisis de los sentimientos
  • CRM analytics
  • Análisis de red
  • Análisis de texto para obtener información de transcripciones, declaraciones de testigos, conversaciones en Internet, etc.
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Analítica en tiempo real

Día 03

Tiempo real y análisis escalables sobre Hadoop

  • Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
  • Apache Hama- para la informática distribuida sincrónica masiva
  • Apache SPARK- para computación en clúster y analítica en tiempo real
  • CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la informática distribuida
  • KNN p: enfoque basado en álgebra de Treeminer para reducir el costo de hardware de operación

Herramientas para eDiscovery y Forensics

  • eDiscovery sobre datos Big Data vs. Legacy: una comparación de costo y rendimiento
  • Predictive coding and Technology Assisted Review (TAR)
  • Demostración en vivo de vMiner para entender cómo TAR permite un descubrimiento más rápido
  • Indexación más rápida a través de HDFS - Velocidad de los datos
  • NLP (procesamiento de lenguaje natural) - productos y técnicas de código abierto
  • eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros

Big Data BI para Cyber Security: obtener una vista de 360 grados, recopilación de datos rápida e identificación de amenazas

  • Comprender los conceptos básicos de análisis de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas del host
  • Infraestructura de red / Gran canal de datos / Respuesta ETL para análisis en tiempo real
  • Prescriptivo vs predictivo: regla fija basada en el descubrimiento automático de reglas de amenazas de metadatos

Recopilación de datos dispares para el análisis de inteligencia criminal

  • Usando IoT (Internet of Things) como sensores para capturar datos
  • Uso de imágenes satelitales para vigilancia doméstica
  • Usar datos de vigilancia e imágenes para identificación criminal
  • Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
  • Combinando la recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones
  • Pronosticar actividad criminal

Día 04

Prevención de fraude BI de Big Data en Fraud Analytics

  • Clasificación básica de Fraud Analytics: análisis basado en reglas versus análisis predictivo
  • Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
  • Fraude de empresa a empresa, fraude de reclamaciones médicas, fraude de seguros, evasión de impuestos y lavado de dinero

Social Media Analytics: recopilación y análisis de inteligencia

  • Cómo los medios sociales son utilizados por los delincuentes para organizar, reclutar y planificar
  • Big Data ETL API para extraer datos de redes sociales
  • Texto, imagen, metadatos y video
  • Análisis del sentimiento de los medios sociales
  • Filtrado contextual y no contextual de las redes sociales
  • Social Media Dashboard para integrar diversas redes sociales
  • Perfiles automáticos del perfil de las redes sociales
  • La demostración en vivo de cada análisis se realizará a través de la herramienta Treeminer

Big Data Analytics en procesamiento de imágenes y videos

  • Técnicas de almacenamiento de imágenes en Big Data - Solución de almacenamiento para datos que exceden los petabytes
  • LTFS (sistema de archivos de cinta lineal) y LTO (cinta lineal abierta)
  • GPFS-LTFS (Sistema General de Archivos en Paralelo - Sistema de Archivo de Cinta Lineal) - solución de almacenamiento en capas para datos de imágenes Grandes
  • Fundamentos de análisis de imágenes
  • Reconocimiento de objetos
  • Segmentación de imagen
  • Rastreo de movimiento
  • Reconstrucción de imágenes en 3-D

Biometría, ADN y programas de identificación de próxima generación

  • Más allá de las huellas dactilares y el reconocimiento facial
  • Reconocimiento de voz, pulsación de tecla (análisis del patrón de tipado de un usuario) y CODIS (sistema de índice de ADN combinado)
  • Más allá del emparejamiento de ADN: utilizando el fenotipado de ADN forense para construir una cara a partir de muestras de ADN

Big Data Dashboard para acceso rápido a diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Big Data Management
  • Estudio de caso de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en Govt.
  • Sistema de seguimiento y gestión

Día 05

Cómo justificar la implementación de Big Data BI dentro de una organización:

  • Definición del ROI (retorno de la inversión) para implementar Big Data
  • Estudios de casos para ahorrar tiempo de analista en la recopilación y preparación de datos: aumento de la productividad
  • Ganancia de ingresos del menor costo de licencia de la base de datos
  • Ganancia de ingresos de servicios basados en ubicación
  • Ahorro en los costos de la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia / ahorro de Ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado con un Big Data System

  • Hoja de ruta de migración de Big Data
  • ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
  • ¿Cuáles son las diferentes maneras de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de datos
  • Estudios de caso

Revisión de Big Data Vendors y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuántico
  • Rackspace
  • Revolution Analytics
  • Fuerza de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG / Terracota
  • Soft10 Automatización
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Piensa en Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte de EMC)

Q / A sesión

Testimonios

★★★★★
★★★★★

Categorías Relacionadas

Cursos Relacionados

Promociones

Descuentos en los Cursos

Respetamos la privacidad de su dirección de correo electrónico. No vamos a pasar o vender su dirección a otros.
Siempre puede cambiar sus preferencias o anular la suscripción por completo.

Algunos de nuestros clientes

is growing fast!

We are looking for a good mixture of IT and soft skills in Spain!

As a NobleProg Trainer you will be responsible for:

  • delivering training and consultancy Worldwide
  • preparing training materials
  • creating new courses outlines
  • delivering consultancy
  • quality management

At the moment we are focusing on the following areas:

  • Statistic, Forecasting, Big Data Analysis, Data Mining, Evolution Alogrithm, Natural Language Processing, Machine Learning (recommender system, neural networks .etc...)
  • SOA, BPM, BPMN
  • Hibernate/Spring, Scala, Spark, jBPM, Drools
  • R, Python
  • Mobile Development (iOS, Android)
  • LAMP, Drupal, Mediawiki, Symfony, MEAN, jQuery
  • You need to have patience and ability to explain to non-technical people

To apply, please create your trainer-profile by going to the link below:

Apply now!

Este sitio en otros países / regiones