Rafael Luque Ocaña
A nivel profesional cuento con 20 años de experiencia en el sector de las TIC, concretamente en el área del software, tanto en perfiles de desarrollo, arquitectura y gestión de proyectos, tanto para Administración Pública como para empresa privada del Sector Industrial, Retail y Real Estate entre otros.
Actualmente trabajando en una gran consultora tecnológica española de carácter internacional, realizando labores de gestión de proyectos y consultoría en ámbitos del área de Analytics, Big Data e IA.
En cuanto a la formación académica, soy Ingeniero Técnico en Telecomunicaciones y MBI por la Universidad de Barcelona, con varias certificaciones y cursos en dirección de proyectos, PMP, SCRUM, Prince2 e ITIL. Certificación en Arquitecturas empresariales TOGAF. También soy certificado y he cursado tanto másteres como programas profesionales entorno a Data Analytics y Big Data, áreas que me apasionan.
Contacto: rluqueo@uoc.edu
Restricciones
No hay restricciones
Lineas de interés
Línea 1: Visualización, Business Intelligence & Analytics
En esta área de trabajos finales tienen cabida todos aquellos trabajos que, a partir de uno o más conjuntos de datos, se propongan crear una visualización de datos interactiva que permita su manipulación, respondiendo siempre a un objetivo que emerge de los propios datos. Esta área está abierta a las propuestas de los estudiantes, pero se dará prioridad a aquellos proyectos que estén relacionados con la visualización de datos abiertos y que tengan una componente social.
Para la obtención de Datasets, podéis ver decenas de ejemplos en estas webs, dependiendo de cual sea el enfoque y la motivación final que se proponga en vuestro TFM;
https://blog.bigml.com/list-of-public-data-sources-fit-for-machine-learning/
Línea 2: Streaming Analytics
El procesamiento en tiempo real de grandes conjuntos de datos permite recopilar flujos continuos de información en el momento en el que se producen con el fin de ser analizados en escenarios en los que la inmediatez de la toma de decisiones y de las respuestas son cruciales, como, por ejemplo, en el entorno bancario para la detección del fraude o en el entorno industrial para la monitorización en tiempo real de una o varias líneas de producción.
Este trabajo de fin de master tiene dos objetivos, por un lado, profundizar en las herramientas y arquitecturas existentes actualmente en el mercado para el procesamiento de grandes volúmenes de datos en tiempo real, para comprender las ventajas y desventajas de cada una de ellas y qué escenarios son los más idóneos para el uso de cada una. Entre ellas se podrán usar y analizar Kafka, Samza, Storm, Spark Streaming y Flume o cualquiera del ecosistema Opensource.
Por otro lado, el trabajo de fin de máster tiene el objetivo práctico de crear un sistema de ingesta masiva de datos que están siendo producidos en tiempo real, crear un mecanismo para el flujo eficiente de los datos y su transformación a través de un pipeline, su visualización en un cuadro de mando de tiempo real y su almacenamiento final en un lago de datos.
Conjuntos de datos, ideas y propuestas concretas a determinar.
Para la obtención de Datasets, podéis ver decenas de ejemplos en estas webs, dependiendo de cual sea el enfoque y la motivación final que se proponga en vuestro TFM;
https://blog.bigml.com/list-of-public-data-sources-fit-for-machine-learning/
Línea 3. Big Data Entorno Financiero o Público - Cliente o Ciudadano 360
Las empresas financieras suelen encontrar un problema respecto a los datos de sus clientes y este es que la información se encuentra dispersa en múltiples bases de datos. Lo mismo le ocurre a las administraciones públicas. En este escenario existe una complejidad para conocer cuál es la información correcta de un cliente, así como para presentar su posición global (visión resumida del estado de los productos bancarios contratados). Además nuevas fuentes de información, en muchos casos desestructuradas, como son las redes sociales, incorporan información al modelo. Esta información de su actividad en redes sociales es muy útil para poder analizar el cliente en más profundidad en temas de riesgos o para la propuesta de nuevos productos.
Todo este marco hace que las empresas financieras quieran tener una visión única del cliente (single view) o una visión 360º. La administración pública, ver al Ciudadano 360. Esta visión permitirá tener una aplicación operativa para poder consultar múltiples datos del cliente o ciudadano.
La propuesta sería implementar un modelo Single View en el cual podamos conocer diferente información del cliente, como pueden ser los movimientos en sus cuentas, o los contactos que ha tenido el contact center con el cliente. Además el sistema deberá de recopilar información de las redes sociales para poder mejorar la información de nuestro cliente. Con todo el sistema deberemos de ofrecer dos cosas: a) una ficha del cliente enfocada a un empleado de la entidad financiera y b) la posición global del cliente. El mismo concepto aplicado al ciudadano 360 y distintas administraciones o ministerios.
Conjuntos de datos, ideas y propuestas concretas a determinar.
Para la obtención de Datasets, podéis ver decenas de ejemplos en estas webs, dependiendo de cual sea el enfoque y la motivación final que se proponga en vuestro TFM;
https://blog.bigml.com/list-of-public-data-sources-fit-for-machine-learning/
Tecnologías: MongoDB, ElasticSearch, Cassandra, cualquiera del ecosistema Opensource
Linea 4. Big Data Entorno Financiero o Asegurador - Detección de Fraude
El trabajo consiste en un sistema de detección de fraude en operaciones bancarias. Principalmente transferencias. La idea es utilizar un sistema de grafos para analizar la información asociada a las transferencia para saber si es una transferencia que represente un posible fraude.
La idea es evaluar los datos de las personas, de los comercios u orígenes desde los que se realiza el pago, las fechas,... agrupar y analizar las dependencias entre estas entidades para poder dictaminar si un pago que entra en el sistema puede ser realizado o marcado como fraudulento ya que tenga un comportamiento anómalo.
El sistema deberá de apoyarse en alguna tecnología de grafos y de almacenamiento NOSQL para poder implementar el sistema de detección de fraude.
Conjuntos de datos, ideas y propuestas concretas a determinar ya que se puede dar un enfoque distinto a los sectores de Banca o Seguros.
Para la obtención de Datasets, podéis ver decenas de ejemplos en estas webs, dependiendo de cual sea el enfoque y la motivación final que se proponga en vuestro TFM;
https://blog.bigml.com/list-of-public-data-sources-fit-for-machine-learning/
Tecnologías relacionadas: Neo4J, MongoDB, Elasticsearch, cualquiera del ecosistema Opensource.
Línea 5: Big Data Sector Seguros - Desarrollo de un modelo predictivo sobre reclamaciones
El trabajo consiste en el desarrollo de un modelo predictivo sobre las reclamaciones de una compañía de seguros, empleando los datos la plataforma Kaggle “Porto Seguro’s Safe Driver Prediction”, que trata de predecir si los clientes de la compañía de seguros van a realizar una reclamación en el futuro.
La finalidad del trabajo consiste en resolver un problema de predicción real con un volumen de datos considerable y aplicar las técnicas predictivas que más éxitos están cosechando en las competiciones de Machine Learning. Además, se pretende realizar un análisis exhaustivo de las variables, así como aplicar distintos métodos de pre-procesamiento y reducción de la dimensionalidad para preparar los datos de forma óptima para su posterior uso en los algoritmos predictivos.
Conjuntos de datos, ideas y propuestas concretas a determinar.
Para la obtención de Datasets, podéis ver decenas de ejemplos en estas webs, dependiendo de cual sea el enfoque y la motivación final que se proponga en vuestro TFM;
https://blog.bigml.com/list-of-public-data-sources-fit-for-machine-learning/
Tecnologías relacionadas: Spark, MLib, Python, cualquiera del ecosistema Opensource.
Otras consideraciones
Dentro de cada propuesta, se puede optar por distintos enfoques y objetivos finales, centrados en varias competencias.
Se aceptan otras ideas, propuestas, retos de Kaggle, ....
El profesor colaborador puede atender a estudiantes en catalán, castellano e inglés.