Programa del Curso
===== Día 01 ===== Descripción general de Big Data Business Intelligence for Criminal Intelligence Analysis
- Casos de estudio de las fuerzas del orden - Policía predictiva
- Tasa de adopción de Big Data en las Fuerzas del Orden y cómo están alineando sus operaciones futuras en torno a Big Data Predictive Analytics
- Soluciones tecnológicas emergentes, como sensores de disparos, videos de vigilancia y redes sociales
- Uso de la tecnología Big Data para mitigar la sobrecarga de información
- Interfaz de Big Data con datos heredados
- Comprensión básica de las tecnologías habilitadoras en el análisis predictivo
- Integración de datos y visualización de cuadros de mando
- Gestión del fraude
- Reglas de negocio y detección de fraudes
- Detección y creación de perfiles de amenazas
- Análisis de costo-beneficio para la implementación de Big Data
Introducción a Big Data
- Principales características del Big Data: Volumen, Variedad, Velocidad y Veracidad.
- Arquitectura MPP (Procesamiento Paralelo Masivo)
- Almacenes de datos: esquema estático, conjunto de datos que evoluciona lentamente
- Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop: no hay condiciones en la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crunch), recuperar de HDFS
- Apache Spark para el procesamiento de secuencias
- Por lotes: adecuado para análisis / no interactivo
- Volumen : Datos de transmisión de CEP
- Opciones típicas: productos CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos producción lista – Storm/S4
- Bases de datos NoSQL (en columnas y clave-valor): Más adecuadas como complemento analítico para el almacén de datos/base de datos
NoSQL soluciones
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Almacén KV (Jerárquico) - GT.m, Caché
- Tienda KV (Ordenada) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tienda de tuplas - Gigaspaces, Coord, Apache River
- Base de datos de objetos: ZopeDB, DB40, Shoal
- Almacén de documentos: CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplio almacén en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción a Data Cleaning problemas en Big Data
- RDBMS: estructura/esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL – semiestructurado, estructura suficiente para almacenar datos sin un esquema exacto antes de almacenar los datos
- Problemas de limpieza de datos
Hadoop
- ¿Cuándo seleccionar Hadoop?
- ESTRUCTURADO: los almacenes/bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
- Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW/DB)
- Datos de almacenamiento = ENORME esfuerzo y estática incluso después de la implementación
- Para variedad y volumen de datos, procesados en hardware básico – HADOOP
- Commodity H/W necesario para crear un Hadoop clúster
Introducción a Map Reduce /HDFS
- MapReduce: distribuya la informática en varios servidores
- HDFS: hacer que los datos estén disponibles localmente para el proceso informático (con redundancia)
- Datos: pueden ser no estructurados o sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programming MapReduce = trabajar con Java (pros/contras), carga manual de datos en HDFS
===== Día 02 ===== Big Data Ecosistema -- Construcción Big Data ETL (Extraer, Transformar, Cargar) -- ¿Qué Big Data herramientas usar y cuándo?
- Hadoop frente a otras soluciones NoSQL
- Para el acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) sobre Hadoop
- Acceso aleatorio a los datos, pero se imponen restricciones (máx. 1 PB)
- No es bueno para el análisis ad-hoc, es bueno para el registro, el recuento, las series temporales
- Sqoop: importación desde bases de datos a Hive o HDFS (acceso JDBC/ODBC)
- Flume: transmita datos (por ejemplo, datos .log) a HDFS
Sistema Big Data Management
- Piezas móviles, nodos de cómputo de inicio/fallo: ZooKeeper: para servicios de configuración/coordinación/nomenclatura
- Canalización/flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias y la conexión en cadena
- Implementar, configurar, administrar clústeres, actualizar, etc. (administrador de sistemas): Ambari
- En la nube : Whirr
Predictive Analytics -- Técnicas Fundamentales e Inteligencia de Negocios basada en Aprendizaje Automático
- Introducción al aprendizaje automático
- Aprendizaje de técnicas de clasificación
- Predicción bayesiana: preparación de un archivo de entrenamiento
- Máquina de vectores de soporte
- KNN p-Tree Algebra y minería vertical
- Redes neuronales
- Problema de variables grandes de Big Data: bosque aleatorio (RF)
- Problema de automatización de Big Data – RF de conjuntos multimodelo
- Automatización a través de Soft10-M
- Herramienta de análisis de texto-Treeminer
- Aprendizaje ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a las herramientas de código abierto para el análisis predictivo : R, Python, Rapidminer, Mahut
Predictive Analytics Ecosistema y su aplicación en el Análisis de Inteligencia Criminal
- La tecnología y el proceso investigativo
- Analítica de información
- Análisis de visualización
- Análisis predictivo estructurado
- Análisis predictivo no estructurado
- Perfiles de amenazas/fraudes/proveedores
- Motor de recomendaciones
- Detección de patrones
- Descubrimiento de reglas/escenarios: fallo, fraude, optimización
- Descubrimiento de la causa raíz
- Análisis de sentimiento
- Análisis de CRM
- Análisis de red
- Análisis de texto para obtener información de transcripciones, declaraciones de testigos, charlas en Internet, etc.
- Revisión asistida por tecnología
- Análisis de fraude
- Analítica en tiempo real
===== Día 03 ===== Análisis en tiempo real y Scalable a través de Hadoop
- Por qué fallan los algoritmos analíticos comunes en Hadoop/HDFS
- Apache Hama: para computación distribuida síncrona masiva
- Apache SPARK: para computación en clúster y análisis en tiempo real
- CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la computación distribuida
- KNN p -- Enfoque basado en álgebra de Treeminer para reducir el costo de operación del hardware
Herramientas para eDiscovery y análisis forense
- eDiscovery sobre Big Data frente a datos heredados: una comparación de costo y rendimiento
- Codificación predictiva y revisión asistida por tecnología (TAR)
- Demostración en vivo de vMiner para comprender cómo TAR permite un descubrimiento más rápido
- Indexación más rápida a través de HDFS – Velocidad de los datos
- NLP (procesamiento del lenguaje natural): productos y técnicas de código abierto
- eDiscovery en lenguas extranjeras: tecnología para el procesamiento de lenguas extranjeras
Big Data BI para Cyber Security – Obtener una visión de 360 grados, recopilación rápida de datos e identificación de amenazas
- Comprender los conceptos básicos de la analítica de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas de host
- Infraestructura de red / Tubería de datos de gran tamaño / ETL de respuesta para análisis en tiempo real
- Prescriptivo vs predictivo – Reglas fijas basadas en reglas vs detección automática de amenazas a partir de metadatos
Recopilación de datos dispares para el análisis de inteligencia criminal
- Uso de IoT (Internet de las cosas) como sensores para la captura de datos
- Uso de imágenes satelitales para la vigilancia doméstica
- Uso de datos de vigilancia e imágenes para la identificación de delitos
- Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
- Combinar la recuperación automatizada de datos con los datos obtenidos de informantes, interrogatorios e investigaciones
- Forecasting Actividad delictiva
===== Día 04 ===== BI de prevención de fraude de Big Data en Fraud Analytics
- Clasificación básica de Fraud Analytics: análisis basado en reglas frente a análisis predictivo
- Aprendizaje automático supervisado frente a no supervisado para la detección de patrones de fraude
- Business al fraude comercial, al fraude de reclamaciones médicas, al fraude de seguros, a la evasión fiscal y al blanqueo de capitales.
Social Media Analítica -- Recopilación y análisis de inteligencia
- Cómo Social Media es utilizado por los delincuentes para organizarse, reclutar y planificar
- API ETL de Big Data para extraer datos de redes sociales
- Texto, imagen, metadatos y vídeo
- Análisis de sentimiento a partir del feed de redes sociales
- Filtrado contextual y no contextual del feed de redes sociales
- Social Media Panel de control para integrar diversas redes sociales
- Elaboración automatizada de perfiles de redes sociales
- La demostración en vivo de cada análisis se dará a través de Treeminer Tool
Big Data Analítica en el procesamiento de imágenes y transmisiones de vídeo
- Técnicas de almacenamiento de imágenes en Big Data -- Solución de almacenamiento para datos que superan los petabytes
- LTFS (Sistema de Archivos de Cinta Lineal) y LTO (Cinta Lineal Abierta)
- GPFS-LTFS (General Parallel File System - Linear Tape File System): solución de almacenamiento en capas para Big Image Data
- Fundamentos de la analítica de imágenes
- Reconocimiento de objetos
- Segmentación de imágenes
- Seguimiento de movimiento
- Reconstrucción de imágenes en 3D
Biométricas, ADN y programas de identificación de próxima generación
- Más allá de las huellas dactilares y el reconocimiento facial
- Reconocimiento de voz, pulsación de teclas (análisis del patrón de escritura de un usuario) y CODIS (sistema combinado de índice de ADN)
- Más allá de la coincidencia de ADN: uso del fenotipado forense de ADN para construir un rostro a partir de muestras de ADN
Big Data Panel de control para un rápido acceso a diversos datos y visualización:
- Integración de la plataforma de aplicaciones existente con Big Data Dashboard
- Gestión de Big Data
- Caso de estudio de Big Data Dashboard: Tableau y Pentaho
- Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en el gobierno.
- Sistema de seguimiento y gestión
===== Día 05 ===== Cómo justificar Big Data la implementación de BI dentro de una organización:
- Definición del ROI (Retorno de la inversión Investment) para la implementación de Big Data
- Casos prácticos para ahorrar tiempo a los analistas en la recopilación y preparación de datos, lo que aumenta la productividad
- Aumento de los ingresos gracias a la reducción del coste de las licencias de bases de datos
- Aumento de ingresos de los servicios basados en la ubicación
- Ahorro de costes gracias a la prevención del fraude
- Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia/ahorro de ingresos de la implementación de Big Data.
Procedimiento paso a paso para reemplazar un sistema de datos heredado por un sistema Big Data
- Big Data Hoja de ruta de la migración
- ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
- ¿Cuáles son las diferentes formas de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- Cómo estimar el crecimiento de los datos
- Casos de estudio
Revisión de Big Data Proveedores y revisión de sus productos.
- Accenture
- APTEAN (anteriormente software de los CDC)
- Sistemas Cisco
- Cloudera
- Dell
- EMC
- Corporación GoodData
- Guavus
- Sistemas de datos de Hitachi
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluciones de Opera
- Oráculo
- Pentaho
- Platfora
- Qliktech
- Cuanto
- Espacio en rack
- Análisis de Revolution
- Ventas de ventas
- SAVIA
- Instituto SAS
- Sisense
- Software AG/Terracotta
- Automatización de Soft10
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Piensa en grande en analítica
- Sistemas de señalización de mareas
- Minador de árboles
- VMware (Parte de EMC)
Sesión de preguntas y respuestas
Requerimientos
-
Conocimiento de los
- procesos de aplicación de la ley y los sistemas de datos
- Conocimientos básicos de SQL/Oracle o base de datos relacional
- Conocimientos básicos de estadística (a nivel de hoja de cálculo)
Testimonios (1)
la facilidad de explicacion y el robusto conocimiento del profesor