Apache Spark

Este módulo introduce las tecnologías Big Data y su motivación en el contexto actual de la era digital y las necesidades de las empresas. Proporciona a los estudiantes una comprensión profunda de cómo funcionan estos sistemas de procesamiento de datos distribuidos y cómo aprovecharlos para procesar grandes cantidades de datos de manera eficiente y efectiva.

El curso se centrará en Apache Spark, sin duda la tecnología más demandada para procesamiento de grandes volúmenes de datos, que constituye el día a día de los equipos de ingenieros de datos de todo el mundo. Describiremos su filosofía basada en un grafo de ejecución (DAG) y sus implicaciones.

A continuación, el alumno profundizará en el estudio de cada uno de los módulos, en especial Spark SQL, MLlib y Structured Streaming. Se desplegará un cluster de Spark en la plataforma de Databricks sobre Azure, actualmente una de las combinaciones más extendidas en la empresa privada, y sobre él se mostrará la aplicación de cada uno de los conceptos.

Contenidos:

Introducción a las tecnologías Big Data.
Apache Spark:
- Arquitectura de Spark.
Módulos de Spark:
- Spark SQL.
- Spark MLlib.
- StructuredStreaming.
Grafos con el paquete GraphFrames.

Programa Máster Big Data y Data Engineering

Python para desarrolladores

Arquitectura de agentes

Arquitecturas de datos

Modelado de datos

Bases de datos NoSQL

Kafka y procesamiento en tiempo real

Apache Spark y procesamiento de datos

Diseño de ingestas y lagos de datos

Pipelines de datos en Cloud

Productivización para ingeniería de datos

Aplicaciones basadas en contenedores

Machine learning y Deep learning para Ingeniaría de datos

Trabajo Final de Máster