Temario del curso
Introducción
- Introducción a las soluciones Cloud Computing y Big Data
- Descripción general de las características y la arquitectura de Apache Hadoop
Configuración Hadoop
- Planificación de un Hadoop clúster (local, en la nube, etc.)
- Selección del sistema operativo y la distribución Hadoop
- Aprovisionamiento de recursos (hardware, red, etc.)
- Descarga e instalación del software
- Dimensionamiento del clúster para mayor flexibilidad
Trabajar con HDFS
- Descripción del Hadoop sistema de archivos distribuido (HDFS)
- Información general sobre la referencia de comandos de HDFS
- Accessing HDFS
- Realización de operaciones básicas de archivos en HDFS
- Uso de S3 como complemento de HDFS
Descripción general de MapReduce
- Descripción del flujo de datos en el marco de MapReduce
- Mapear, barajar, ordenar y reducir
- Demostración: Computando los mejores salarios
Trabajar con YARN
- Descripción de la administración de recursos en Hadoop
- Trabajar con ResourceManager, NodeManager, Application Master
- Programación de trabajos en YARN
- Programación para un gran número de nodos y clústeres
- Demostración: Programación de trabajos
Integración Hadoop con Spark
- Configuración del almacenamiento para Spark (HDFS, Amazon, S3, NoSQL, etc.)
- Descripción de los conjuntos de datos distribuidos resistentes (RDD)
- Creación de un RDD
- Implementación de transformaciones RDD
- Demostración: Implementación de un programa de búsqueda de texto para títulos de películas
Administración de un clúster Hadoop
- Monitoreo Hadoop
- Protección de un clúster Hadoop
- Adición y eliminación de nodos
- Ejecución de una prueba comparativa de rendimiento
- Ajuste de un clúster Hadoop para optimizar el rendimiento
- Planificación de copias de seguridad, recuperación y continuidad del negocio
- Garantizar la alta disponibilidad (HA)
Actualización y migración de un clúster Hadoop
- Evaluación de los requisitos de carga de trabajo
- Actualización Hadoop
- Pasar de las instalaciones a la nube y viceversa
- Recuperación de errores
Solución de problemas
Resumen y conclusión
Requerimientos
- Experiencia en administración de sistemas
- Experiencia con la línea de comandos Linux
- Comprensión de los conceptos de big data
Audiencia
- Administradores de sistemas
- Dbas
Testimonios (3)
Me gustó que fuera práctico. Amé aplicar el conocimiento teórico con ejemplos prácticos.
Aurelia-Adriana - Allianz Services Romania
Curso - Python and Spark for Big Data (PySpark)
Traducción Automática
El hecho de poder llevar con nosotros la mayoría de la información/curso/presentación/ejercicios realizados, para poder revisarlos y tal vez volver a hacer lo que no entendimos la primera vez o mejorar lo que ya hicimos.
Raul Mihail Rat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
La combinación de teoría y práctica con herramientas como databricks