Uno de los objetivos de la ingeniería de datos es dar soporte a la creación de modelos de aprendizaje automático que extraigan valor a los datos de una empresa y ayuden al negocio. Esto ocurre tanto antes de que se diseñe un modelo predictivo, suministrando los datos adecuados, como en el momento de ponerlo en producción. Por ello, es necesario que un ingeniero de datos esté familiarizado con las técnicas que aplican los científicos de datos, con el fin de comprender las necesidades de estos, lo cual favorece la sinergia entre equipos de ambos perfiles y acelera la entrega de valor.
En este módulo, se presentan los fundamentos del Machine Learning, las técnicas principales que lo componen en el ámbito del aprendizaje supervisado, no supervisado y por refuerzo, así como las fortalezas, limitaciones y métricas necesarias para evaluar el funcionamiento de cada modelo. El módulo se plantea desde un punto de vista eminentemente práctico, con una orientación específica a lo que el ingeniero de datos necesita entender. Se complementa con una introducción al Deep Learning, el conjunto de técnicas basadas en redes neuronales que actualmente constituyen una verdadera tendencia, en especial en lo que respecta a procesamiento de lenguaje natural con LLM (Large Language Models) y redes generativas de contenidos de tipo textual e imagen.
Contenidos:
- Introducción al Machine Learning.
- Aprendizaje supervisado con Python.
- Aprendizaje no supervisado con Python.
- Utilización del paquete scikit-learn.
- Evaluación de un modelo entrenado.
- Redes neuronales: forward y backpropagation.
- Autoencoders. Transformers. Redes generativas. Ejemplos utilizando Keras.
- Large Language Models (LLMs) actuales.