Francesc Julbe Lopez
Licenciado en Ingeniería de Telecomunicaciones por la Universitat Politècnica de Catalunya. Tras unos años trabajando en la consultoría tecnológica, desarrolló su carrera profesional en el campo de la investigación espacial en proyectos de la Agencia Espacial Europea, principalmente para la misión GAIA, desarrollando áreas de desarrollo de sistemas de procesado de datos y Big Data, así como en la ESO (European Southern Observatory) en tareas de desarrollo de software para sistemas de acceso a los archivos astronómicos. Recientemente ha trabajado en una empresa del sector fintech, desarrollando una plataforma de Big Data para gestión de clientes e inversiones. Tras unos años en consultoria en Deloitte como responsable de desarrollo de proyectos de Data Analytics y Big Data para el sector público, se incorporó a Roche como Big Data Tech Lead en Mayo de 2022.
Contacto: fjulbe@uoc.edu
Descripción de las lineas del TFM
La analítica predictiva es una de las líneas más actuales de la analítica de datos y el Big Data por su capacidad de predecir comportamientos y anticiparse a eventos o circunstancias significativas. Sin embargo, la calidad de los datos y su etiquetaje constituyen el elemento clave para el éxito de dicha técnica.
En esta línea de TFM se plantea el desarrollo un sistema predictivo a partir de la combinación de diferentes técnicas de pre-procesado de datos y modelado a partir de datasets disponibles.
Por un lado, se ofrece la posibilidad del desarrollo de un caso de negocio propio a partir de datasets públicos tales como los que se pueden obtener de Google Cloud (son especialmente interesantes aquellos relativos al COVID-19 por su actualidad e interés público) y de la NASA, por ejemplo. Pero cualquier temática puede tener un caso de uso, os acompañaré en la definición del caso de uso, identificación de las fuentes de datos y desarrollo del pipeline de analítica en general, así como la interpretación de negocio del trabajo realizado.
Asimismo, se ofrecen dos casos de negocio para el desarrollo de modelos predictivos en el primero, y un caso más abierto de temática muy actual en el segundo:
Línea 1: Desarrollo de un modelo predictivo sobre fraude en transacciones basadas en el uso de tarjetas de crédito
De forma similar a la primera línea, el núcleo del trabajo es el desarrollo de un modelo predictivo sobre datos de transacciones bancarias con tarjetas de crédito para detectar cuantas transacciones han sido fraudulentas. Así, aquí el dataset de trabajo esta altamente desbalanceado, con lo que es necesario el desarrollo de técnicas de preparación previas al desarrollo del modelo. El proyecto se basa en la iniciativa también de Kaggle para la obtención del dataset.
Como en cualquier proyecto de modelado predictivo, el trabajo requiere de un pre-procesado exhaustivo de datos desbalanceados, aplicación de técnicas de ML y métricas de evaluación de modelos. Aún así, gran parte del trabajo ya esta hecho teniendo el dataset ya etiquetado.
Tecnologías relacionadas: Spark, MLib, Python
Línea 2: Cambio climático - analítica avanzada sobre datasets públicos
La producción de gases de efecto invernadero es ya una de las principales preocupaciones a nivel mundial a medio y largo plazo, dando lugar al llamado cambio climático. El portal ‘The World Bank’ ofrece una amplia y profunda cantidad de datastes relativos al progreso económico y social mundial, así, en esta línea se pide al estudiante desarrollar uno o más casos de uso a partir de los datasets disponibles que permita una buena caracterización de las variables más relevantes que están teniendo peso en dicho cambio, combinando las variables de ámbito económico y social con datos meteorológicos así como analizar escenarios futuros en los cuales se incluyan nuevas variables relativas a nuevas tecnologías para paliar sus efectos, como el DAC (Direct Air Capture) e incluso contemplando efectos de carácter externo como la radiación solar y sus periodos de actividad de ciclo corto o largo.
Para el desarrollo de este trabajo se plantea el uso de las siguientes fuentes de datos como punto de partida:
https://www.ngdc.noaa.gov/stp/solar/solar-indices.html
https://www.iea.org/data-and-statistics
https://public.wmo.int/en/media/press-release/state-of-climate-2021-extreme-events-and-major-impacts
Cualquier otra fuente de datos puede ser incluida en el estudio.
Durante el desarrollo del trabajo el estudiante deberá desarrollar un pipeline de análisis de datos en el cual se caracterice el caso de uso, se analicen los datos disponibles y se planteen las hipótesis pertinentes sobre las cuales desarrollar los análisis descriptivos y predictivos (si aplica) correspondientes.
Tecnologías relacionadas: Spark, MLib, Python, Cloud
Otras consideraciones
El profesor colaborador puede atender a estudiantes en catalán, castellano e inglés.