IBM Datastage Para Administradores y Desarrolladores
IBM DataStage es una poderosa herramienta de extracción, transformación y carga (ETL) utilizada en data warehousing y business intelligence que ayuda a las organizaciones a integrar y transformar grandes volúmenes de datos, procedentes de diversas fuentes de datos, en un formato unificado.
Este entrenamiento dirigido por un instructor (en línea o presencial) está destinado a profesionales de TI intermedios que desean tener una comprensión completa de IBM DataStage desde las perspectivas administrativa y de desarrollo, lo que les permitirá gestionar y utilizar esta herramienta de manera efectiva en sus respectivos lugares de trabajo.
Al finalizar este entrenamiento, los participantes serán capaces de:
- Entender los conceptos fundamentales de DataStage.
- Aprender a instalar, configurar y gestionar entornos de DataStage de manera efectiva.
- Conectarse a diversas fuentes de datos y extraer datos de forma eficiente desde bases de datos, archivos planos y fuentes externas.
- Implementar técnicas efectivas de carga de datos.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y prácticas.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para hacer los arreglos necesarios.
Temario del curso
Introducción a DataStage
- Panorama del proceso ETL
- Comprensión de la arquitectura de DataStage
- Componentes clave de DataStage
Administración de DataStage
- Instalación y configuración
- Gestión de usuarios y seguridad
- Configuración de proyectos y gestión del entorno
- Programación y gestión de trabajos
- Procedimientos de respaldo y recuperación
Técnicas de Extracción de Datos
- Conexión a diversas fuentes de datos
- Extracción de datos desde bases de datos, archivos planos y fuentes externas
- Mejores prácticas para la extracción de datos
Transformación de Datos con DataStage
- Comprensión del diseñador de DataStage
- Trabajo con diferentes tipos de etapas
- Implementación de lógica empresarial en transformaciones
- Técnicas avanzadas de transformación de datos
Carga y Integración de Datos
- Carga de datos en sistemas objetivo
- Garantía de calidad e integridad de los datos
- Manejo de errores y registro
Ajuste y Optimización del Rendimiento
- Mejores prácticas para el ajuste de rendimiento
- Gestión de recursos
- Secuenciación y paralelismo de trabajos
Temas Avanzados
- Trabajo con DataStage Director
- Depuración y solución de problemas
Resumen y Pasos Siguientes
Requerimientos
- Conocimientos básicos de conceptos de bases de datos
- Familiaridad con SQL y principios de data warehousing
Audiencia
- Profesionales de TI
- Administradores de bases de datos
- Desarrolladores
Los cursos públicos requieren más de 5 participantes.
IBM Datastage Para Administradores y Desarrolladores - Reserva
IBM Datastage Para Administradores y Desarrolladores - Consulta
IBM Datastage Para Administradores y Desarrolladores - Solicitud de consultoría
Testimonios (1)
Ejercicios prácticos. La clase debería haber durado 5 días, pero los 3 días fueron útiles para aclarar muchas de las preguntas que tenía al trabajar con NiFi.
James - BHG Financial
Curso - Apache NiFi for Administrators
Traducción Automática
Próximos cursos
Cursos Relacionados
Avanzado de Apache Iceberg
21 HorasEste curso de formación dirigido por un instructor en Peru (en línea o en las instalaciones del cliente) está destinado a profesionales de datos de nivel avanzado que desean optimizar los flujos de trabajo de procesamiento de datos, garantizar la integridad de los datos y implementar soluciones robustas de data lakehouse que puedan manejar las complejidades de las aplicaciones de big data modernas.
Al final de este curso, los participantes serán capaces de:
- Obtener una comprensión profunda de la arquitectura de Iceberg, incluyendo el manejo de metadatos y la distribución de archivos.
- Configurar Iceberg para un rendimiento óptimo en diversos entornos e integrarlo con múltiples motores de procesamiento de datos.
- Gestionar tablas de Iceberg a gran escala, realizar cambios de esquema complejos y manejar la evolución de particiones.
- Dominar técnicas para optimizar el rendimiento de las consultas y la eficiencia del escaneo de datos en grandes conjuntos de datos.
- Implementar mecanismos para garantizar la consistencia de los datos, gestionar garantías transaccionales y manejar fallos en entornos distribuidos.
Fundamentos de Apache Iceberg
14 HorasEste curso dirigido por un instructor y en vivo en Peru (en línea o en el sitio) está destinado a profesionales de datos de nivel principiante que deseen adquirir los conocimientos y habilidades necesarios para utilizar eficazmente Apache Iceberg en la gestión de conjuntos de datos de gran escala, garantizando la integridad de los datos y optimizando los flujos de trabajo de procesamiento de datos.
Al final de este curso, los participantes serán capaces de:
- Obtener una comprensión exhaustiva de la arquitectura, características y beneficios de Apache Iceberg.
- Aprender sobre formatos de tabla, particionamiento, evolución del esquema y capacidades de viaje en el tiempo.
- Instalar y configurar Apache Iceberg en diferentes entornos.
- Crear, gestionar y manipular tablas de Iceberg.
- Comprender el proceso de migración de datos desde otros formatos de tabla a Iceberg.
Análisis de Big Data con Google Colab y Apache Spark
14 HorasEste entrenamiento en vivo dirigido por un instructor (en línea o presencial) está destinado a científicos de datos y ingenieros de nivel intermedio que desean utilizar Google Colab y Apache Spark para el procesamiento y análisis de grandes volúmenes de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Configurar un entorno de gran volumen de datos utilizando Google Colab y Spark.
- Procesar y analizar conjuntos de datos grandes de manera eficiente con Apache Spark.
- Visualizar grandes volúmenes de datos en un entorno colaborativo.
- Integrar Apache Spark con herramientas basadas en la nube.
Inteligencia de Negocios de Big Data para Agencias del Gobierno
35 HorasLos avances en las tecnologías y la creciente cantidad de información están transformando la forma en que los negocios se llevan a cabo en muchas industrias, incluyendo el gobierno. Los índices de generación de gobierno y de archivos digitales están aumentando debido al rápido crecimiento de dispositivos y aplicaciones móviles, sensores y dispositivos inteligentes, soluciones de cloud computing y portales orientados a los ciudadanos. A medida que la información digital se expande y se vuelve más compleja, la gestión de la información, el procesamiento, el almacenamiento, la seguridad y la disposición también se vuelven más complejos. Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis están ayudando a las organizaciones a obtener información sobre sus datos no estructurados. El mercado gubernamental está en un punto de inflexión, al darse cuenta de que la información es un activo estratégico y el gobierno necesita proteger, aprovechar y analizar información estructurada y no estructurada para servir mejor y cumplir con los requisitos de la misión. A medida que los líderes del gobierno se esfuerzan por evolucionar las organizaciones impulsadas por datos para cumplir con éxito la misión, están sentando las bases para correlacionar dependencias a través de eventos, personas, procesos e información.
Las soluciones gubernamentales de alto valor se crearán a partir de un mashup de las tecnologías más perjudiciales:
- Dispositivos y aplicaciones móviles
- Servicios en la nube
- Tecnologías de redes sociales y redes
- Big Data y análisis
IDC predice que para el año 2020, la industria de TI alcanzará los $ 5 billones, aproximadamente $ 1.7 trillones más que hoy, y que el 80% del crecimiento de la industria será impulsado por estas tecnologías de la 3ª Plataforma. A largo plazo, estas tecnologías serán herramientas clave para hacer frente a la complejidad del aumento de la información digital. Big Data es una de las soluciones inteligentes de la industria y permite al gobierno tomar mejores decisiones tomando medidas basadas en patrones revelados al analizar grandes volúmenes de datos relacionados y no relacionados, estructurados y no estructurados.
Pero el logro de estas hazañas lleva mucho más que la simple acumulación de cantidades masivas de datos. "Haciendo sentido de estos volúmenes de Big Datarequires herramientas de vanguardia y" tecnologías que pueden analizar y extraer conocimiento útil de las corrientes de información vasta y diversa ", Tom Kalil y Fen Zhao de la Oficina de la Casa Blanca de Política Científica y Tecnológica escribió en un post en el blog de OSTP.
La Casa Blanca dio un paso hacia ayudar a las agencias a encontrar estas tecnologías cuando estableció la Iniciativa Nacional de Investigación y Desarrollo de Grandes Datos en 2012. La iniciativa incluyó más de $ 200 millones para aprovechar al máximo la explosión de Big Data y las herramientas necesarias para analizarla .
Los desafíos que plantea Big Data son casi tan desalentadores como su promesa es alentadora. El almacenamiento eficiente de los datos es uno de estos desafíos. Como siempre, los presupuestos son ajustados, por lo que las agencias deben minimizar el precio por megabyte de almacenamiento y mantener los datos de fácil acceso para que los usuarios puedan obtenerlo cuando lo deseen y cómo lo necesitan. Copia de seguridad de grandes cantidades de datos aumenta el reto.
Otro gran desafío es analizar los datos de manera eficaz. Muchas agencias emplean herramientas comerciales que les permiten tamizar las montañas de datos, detectando tendencias que pueden ayudarles a operar de manera más eficiente. (Un estudio reciente de MeriTalk encontró que los ejecutivos federales de TI piensan que Big Data podría ayudar a las agencias a ahorrar más de 500.000 millones de dólares mientras cumplen los objetivos de la misión).
Las herramientas de Big Data desarrolladas a medida también están permitiendo a las agencias abordar la necesidad de analizar sus datos. Por ejemplo, el Grupo de Análisis de Datos Computacionales del Laboratorio Nacional de Oak Ridge ha puesto a disposición de otras agencias su sistema de análisis de datos Piranha. El sistema ha ayudado a los investigadores médicos a encontrar un vínculo que puede alertar a los médicos sobre los aneurismas de la aorta antes de que hagan huelga. También se utiliza para tareas más mundanas, tales como tamizar a través de currículos para conectar candidatos de trabajo con los gerentes de contratación.
Una Introducción Práctica a Data Analysis y Big Data - 3 Días
21 HorasLos participantes que completen esta capacitación en vivo dirigida por un instructor en Peru obtendrán una comprensión práctica y del mundo real de Big Data y sus tecnologías, metodologías y herramientas relacionadas.
Los participantes tendrán la oportunidad de poner en práctica estos conocimientos a través de ejercicios prácticos. La interacción grupal y la retroalimentación del instructor constituyen un componente importante de la clase.
El curso comienza con una introducción a los conceptos elementales de Big Data, luego progresa a los lenguajes de programación y las metodologías utilizadas para realizar Data Analysis. Por último, analizamos las herramientas y la infraestructura que permiten el almacenamiento Big Data, el procesamiento distribuido y la Scala bilidad.
Apache NiFi para administradores
21 HorasApache NiFi (Hortonworks DataFlow) es una plataforma de procesamiento de eventos y logística de datos integrada en tiempo real que permite mover, rastrear y automatizar los datos entre los sistemas. Está escrito usando programación basada en flujo y proporciona una interfaz de usuario basada en web para administrar flujos de datos en tiempo real.
En esta capacitación en vivo dirigida por un instructor, los participantes aprenderán a implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta capacitación, los participantes podrán:
- Instalar y configurar Apachi NiFi
- Fuente, transformar y gestionar datos de fuentes de datos dispersas y distribuidas, incluidas bases de datos y lagos de datos grandes.
- Automatice los flujos de datos
- Habilitar análisis de transmisión
- Aplicar varios enfoques para la ingestión de datos
- Transformar Big Data y en conocimientos empresariales
Audiencia
- Administradores del sistema
- Ingenieros de datos
- Desarrolladores
- DevOps
Formato del curso
- Conferencia de parte, discusión en parte, ejercicios y práctica práctica
PySpark y Aprendizaje Automático
21 HorasEsta formación ofrece una introducción práctica a la creación de flujos de trabajo escalables de procesamiento de datos y aprendizaje automático utilizando PySpark. Los participantes aprenderán cómo funciona Apache Spark dentro de los ecosistemas modernos de Big Data y cómo procesar grandes conjuntos de datos de manera eficiente aplicando los principios de la computación distribuida.
Fundamentos de Apache Spark
21 HorasEste curso de formación dirigido por un instructor en Peru (en línea o presencial) está destinado a ingenieros que deseen configurar e implementar el sistema Apache Spark para procesar cantidades muy grandes de datos.
Al finalizar este curso, los participantes serán capaces de:
- Instalar y configurar Apache Spark.
- Procesar y analizar rápidamente conjuntos de datos muy grandes.
- Comprender la diferencia entre Apache Spark y Hadoop MapReduce y cuándo utilizar cada uno.
- Integrar Apache Spark con otras herramientas de aprendizaje automático.
Administración de Apache Spark
35 HorasEsta formación en directo dirigida por un instructor en Peru (en línea o in situ) está dirigida a administradores de sistemas de nivel principiante a intermedio que deseen implementar, mantener y optimizar clústeres de Spark.
Al final de esta capacitación, los participantes serán capaces de:
- Instale y configure Apache Spark en varios entornos.
- Administre los recursos del clúster y supervise las aplicaciones de Spark.
- Optimice el rendimiento de los clústeres de Spark.
- Implemente medidas de seguridad y garantice una alta disponibilidad.
- Depurar y solucionar problemas comunes de Spark.
Apache Spark en la Nube
21 HorasLa curva de aprendizaje de Apache Spark aumenta lentamente al principio, y requiere mucho esfuerzo para obtener los primeros resultados. Este curso tiene como objetivo superar la primera parte difícil. Después de completar este curso, los participantes entenderán los conceptos básicos de Apache Spark, diferenciarán claramente RDD de DataFrame, aprenderán las API de Python y Scala, comprenderán los ejecutores y tareas, etc. Además, siguiendo las mejores prácticas, este curso se centra fuertemente en la implementación en la nube, Databricks y AWS. Los estudiantes también entenderán las diferencias entre AWS EMR y AWS Glue, uno de los servicios más recientes de Spark de AWS.
AUDIENCIA:
Data Engineer, DevOps, Data Scientist
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Peru, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Python, Spark y Hadoop para Big Data
21 HorasEsta capacitación en vivo dirigida por un instructor en Peru (en línea o presencial) está dirigida a desarrolladores que desean usar e integrar Spark, Hadoop y Python para procesar, analizar y transformar conjuntos de datos grandes y complejos.
Al final de esta formación, los participantes serán capaces de:
- Configure el entorno necesario para empezar a procesar macrodatos con Spark, Hadoop y Python.
- Comprender las características, los componentes principales y la arquitectura de Spark y Hadoop.
- Aprenda a integrar Spark, Hadoop y Python para el procesamiento de big data.
- Explore las herramientas del ecosistema de Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka y Flume).
- Cree sistemas de recomendación de filtrado colaborativo similares a Netflix, YouTube, Amazon, Spotify y Google.
- Utilice Apache Mahout para escalar los algoritmos de aprendizaje automático.
Apache Spark SQL
7 HorasSpark SQL es el módulo de Apache Spark para trabajar con datos estructurados y no estructurados. Spark SQL proporciona información sobre la estructura de los datos, así como sobre el cálculo que se está realizando. Esta información puede utilizarse para realizar optimizaciones. Dos usos comunes de Spark SQL son:
- ejecutar consultas SQL.
- leer datos de una instalación existente de Hive.
En este entrenamiento dirigido por un instructor (presencial o remoto), los participantes aprenderán a analizar diversos conjuntos de datos utilizando Spark SQL.
Al final de este curso, los participantes podrán:
- Instalar y configurar Spark SQL.
- Realizar análisis de datos con Spark SQL.
- Consultar conjuntos de datos en diferentes formatos.
- Visualizar datos y resultados de consultas.
Formato del curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de personalización del curso
- Para solicitar un entrenamiento personalizado para este curso, contáctenos para hacer los arreglos necesarios.
Stratio: Módulos Rocket e Intelligence con PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.