Contacta con nosotros

Temario del curso

PySpark y Aprendizaje Automático

Módulo 1: Fundamentos de Big Data y Spark

  • Panorama general del ecosistema de Big Data y el papel de Spark en las plataformas de datos modernas.
  • Comprensión de la arquitectura de Spark: driver, executors, gestor del clúster, evaluación diferida, DAG y planificación de ejecución.
  • Diferencias entre las APIs RDD y DataFrame y cuándo utilizar cada enfoque.
  • Creación y configuración de SparkSession y comprensión de los fundamentos de la configuración de aplicaciones.

Módulo 2: DataFrames de PySpark

  • Lectura y escritura de datos desde fuentes y formatos empresariales (CSV, JSON, Parquet, Delta).
  • Trabajo con DataFrames de PySpark: transformaciones, acciones, expresiones de columnas, filtrado, uniones y agregaciones.
  • Implementación de operaciones avanzadas como funciones de ventana, manejo de marcas de tiempo y trabajo con datos anidados.
  • Aplicación de comprobaciones de calidad de datos y escritura de código PySpark reutilizable y mantenible.

Módulo 3: Procesamiento eficiente de grandes conjuntos de datos

  • Comprensión de los fundamentos del rendimiento: estrategias de particionamiento, comportamiento del shuffle, caché y persistencia.
  • Uso de técnicas de optimización, incluyendo uniones por difusión (broadcast joins) y análisis del plan de ejecución.
  • Procesamiento eficiente de grandes conjuntos de datos y mejores prácticas para flujos de trabajo de datos escalables.
  • Comprensión de la evolución del esquema y los formatos de almacenamiento modernos utilizados en entornos empresariales.

Módulo 4: Ingeniería de características a gran escala

  • Realización de ingeniería de características con Spark MLlib: manejo de valores nulos, codificación de variables categóricas y escalado de características.
  • Diseño de pasos de preprocesamiento reutilizables y preparación de conjuntos de datos para pipelines de aprendizaje automático.
  • Introducción a la selección de características y manejo de conjuntos de datos desbalanceados.

Módulo 5: Aprendizaje automático con Spark MLlib

  • Comprensión de la arquitectura de MLlib y el patrón Estimator/Transformer.
  • Entrenamiento de modelos de regresión y clasificación a gran escala (Regresión Lineal, Regresión Logística, Árboles de Decisión, Bosque Aleatorio).
  • Comparación de modelos e interpretación de resultados en flujos de trabajo de aprendizaje automático distribuidos.

Módulo 6: Pipelines de ML de extremo a extremo

  • Construcción de pipelines de aprendizaje automático de extremo a extremo que combinen preprocesamiento, ingeniería de características y modelado.
  • Aplicación de estrategias de división de datos en entrenamiento, validación y prueba.
  • Realización de validación cruzada y ajuste de hiperparámetros mediante búsqueda en cuadrícula (grid search) y búsqueda aleatoria.
  • Estructuración de experimentos de aprendizaje automático reproducibles.

Módulo 7: Evaluación de modelos y toma de decisiones prácticas en ML

  • Aplicación de métricas de evaluación adecuadas para problemas de regresión y clasificación.
  • Identificación de sobreajuste y subajuste, y toma de decisiones prácticas sobre la selección de modelos.
  • Interpretación de la importancia de las características y comprensión del comportamiento del modelo.

Módulo 8: Prácticas de producción y entorno empresarial

  • Persistencia y carga de modelos en Spark.
  • Implementación de flujos de trabajo de inferencia por lotes en grandes conjuntos de datos.
  • Comprensión del ciclo de vida del aprendizaje automático en entornos empresariales.
  • Introducción a conceptos de versionado, seguimiento de experimentos y estrategias básicas de prueba.

 

Resultado práctico

  • Capacidad para trabajar de forma autónoma con PySpark.
  • Capacidad para procesar grandes conjuntos de datos de manera eficiente.
  • Capacidad para realizar ingeniería de características a gran escala.
  • Capacidad para construir pipelines de aprendizaje automático escalables.

Requerimientos

Se requiere que los participantes cuenten con los siguientes conocimientos previos:

Conocimientos básicos de programación en Python, incluido el trabajo con funciones, estructuras de datos y librerías.
Comprensión fundamental de conceptos de análisis de datos, como conjuntos de datos, transformaciones y agregaciones.
Conocimientos básicos de SQL y conceptos de datos relacionales.
Comprensión introductoria de conceptos de aprendizaje automático, como conjuntos de datos de entrenamiento, características y métricas de evaluación.
Se recomienda familiaridad con entornos de línea de comandos y prácticas básicas de desarrollo de software.

La experiencia con Pandas, NumPy o librerías similares de procesamiento de datos es útil, aunque no obligatoria.

 21 Horas

Número de participantes


Precio por participante

Testimonios (1)

Próximos cursos

Categorías Relacionadas