Este módulo introduce las tecnologías Big Data y su motivación en el contexto actual de la era digital y las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar grandes cantidades de datos de manera eficiente y efectiva.
El curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento de grandes volúmenes de datos, que constituye el día a día de los equipos de ingenieros de datos de todo el mundo. Describiremos su filosofía basada en un grafo de ejecución (DAG) y sus implicaciones.
A continuación, el alumno profundizará en el estudio de cada uno de los módulos, en especial Spark SQL, MLlib y Structured Streaming. Se desplegará un cluster de Spark en la plataforma de Databricks sobre Azure, actualmente una de las combinaciones más extendidas en la empresa privada, y sobre él se mostrará la aplicación de cada uno de los conceptos.
Contenidos:
- Introducción a las tecnologías Big Data.
- Apache Spark:
- Arquitectura de Spark.
- Módulos de Spark:
- Spark SQL.
- Spark MLlib.
- StructuredStreaming.
- Grafos con el paquete GraphFrames.