Alejandro Ortiz

Profesional con más de 10 años en el área de tecnologías de la información, me he desarrollado en múltiples roles dentro de la industria de desarrollo de software, como DevOp, Project Manager, QA, DBA y Data Engineer para grandes cantidades de datos, analítica avanzada y ciencia de datos.

Actualmente me encuentro colaborando con el Barcelona Supercomputing Center (BSC) como parte del grupo de Smart Cities, además de colaborar como consultor en la empresa CMondays y ser socio fundador de la empresa DataVink, organización enfocada a democratizar el análisis de datos para PyMes.

Formación Académica. Cuento con el grado de Informático, Master (MSc) en Big Data & High Performance Computing por la University of Liverpool y actualmente me encuentro cursando el último año de doctorado en la Universitat Politecnica de Catalunya.

Formación adicional. Cuento con varias certificaciones en Data Bases, Linux, BI developer, cursos en dirección de proyectos, certificación SCRUM Master, y Certificación ITIL. También soy certificado y he cursado tanto másteres como programas profesionales entorno a Data Analytics y Big Data, áreas que me apasionan.


Contacto: vortizs@uoc.edu

Restricciones

No hay restricciones

Lineas de interés


Predict The Price Of Books: Enhancing data with web-scrapping

(Proyecto basado en el hackaton: https://machinehack.com/hackathons/predict_the_price_of_books/overview)

 

Uno de los principales retos a los que se enfrentan los profesionales en la industria, es la necesidad de complementar los datos existentes con fuentes externas de información, tales como información disponible en la web.

 

Aprender a aplicar técnicas de extracción de datos directamente en la web es una habilidad altamente deseada en los profesionales de datos hoy en día.

 

La propuesta de investigación consiste en:

 

Este proyecto se inspira en el proyecto publicado en la web “MachineHack”, dónde se explora un dataset compuesto por 6.237 registros para entrenamiento y 1.560 registros para validación.

 

El dataset contiene los siguientes datos:

·       Título

·       Autor

·       Edición

·       Valoraciones

·       Sinopsis

·       Género

·       Categoría

·       Precio (Target)

 

El aprendizaje obtenido al finalizar el proyecto, será de utilidad para el alumno para poder aplicar técnicas de Machine Learning y NLP en la generación de modelos predictivos, además de técnicas de extracción y manipulación de datos que complementan las habilidades requeridas en la industria.


Face Anonymization with Deep Learning for images and video streaming.

 

Los profesionales en datos saben que la publicación de datos anónimos es importante porque ayuda a proteger la privacidad de las personas. Sin anonimización, la información personal de los individuos puede quedar expuesta y utilizarse con fines malintencionados.

 

Los datos anonimizados también permiten a los investigadores estudiar conjuntos de datos sensibles sin violar la confianza de los participantes ni comprometer su privacidad.

 

En este proyecto se propone desarrollar una solución de anonimización sobre imágenes y videos, dónde se difuminen o desenfoquen los rostros de las personas que aparezcan en dichas fuentes de datos.

 

La propuesta es desarrollar una herramienta que aplique técnicas de Deep Learning para la detección de rostros y/o cuerpos humanos en imágenes y streaming de datos, y que pueda generar una versión “anonimizada” de ellas, por lo tanto, se prevé que la solución deberá otorgar dos opciones:

- Una carga de imagen/video pre-grabado.

- Una solución en tiempo real que permita mostrar únicamente el video anonimizado en tiempo real. 

 

El aprendizaje obtenido de este proyecto será sobre técnicas de Aprendizaje profundo para la detección de rostros y objetos, el cual puede ser aplicado en proyectos futuros dentro de la industria dónde se desempeñe el alumno.


Análisis de la violencia Machista en Redes Sociales (Twitter).

 

La violencia de género es un problema importante y generalizado en nuestra sociedad. Es importante comprender mejor cómo se debate en las redes sociales, ya que éstas se han convertido en una importante plataforma para debatir y concienciar sobre este tipo de violencia. Twitter es una plataforma popular para debatir sobre la violencia de género, y analizar los datos de Twitter puede ayudarnos a comprender mejor el problema.

 

Esta propuesta es para un proyecto de análisis de datos de Twitter relacionados con la violencia de género. El objetivo del proyecto es comprender mejor cómo se discute la violencia de género en Twitter y descubrir patrones en las discusiones. El proyecto utilizará técnicas de minería de datos y procesamiento del lenguaje natural para analizar un amplio corpus de tuits relacionados con la violencia de género. El proyecto también utilizará técnicas estadísticas y visualizaciones para presentar los resultados de manera significativa.

 

Objetivos

 

El objetivo principal de este proyecto es analizar los datos de Twitter relacionados con la violencia de género. En concreto, el proyecto

 

- Recopilar un gran corpus de tweets relacionados con la violencia de género.

 

- Analizar el corpus utilizando técnicas de minería de datos y procesamiento del lenguaje natural.

 

- Utilizar técnicas estadísticas y visualizaciones para presentar los resultados de manera significativa.


Análisis de sentimientos en Redes Sociales (Facebook, Twitter, Instagram, YouTube, TikTok)

El Trabajo Final de Máster propuesto se basa identificar la polaridad Positiva/Negativa de los comentarios relacionados a un tópico en específico (Seleccionado por el estudiante) dentro de alguna de las redes sociales propuestas. Ejemplos del tópico, son el análisis de la percepción (Aceptación/rechazo) de una marca, una situación social, un personaje famoso, producto, etc. Y la respectiva generación de un tablero (dashboard) de toma de decisiones para el monitoreo oportuno (en tiempo real).

Para llevar a cabo este proyecto, se hará uso de las siguientes tecnologías:

-          Web Scrapping para la adquisición de datos (Selenium| Beautiful Soap |APIs de las redes sociales).

-          Hadoop/Spark (Para el almacenamiento y procesamiento de los datos).

-          Storm | Kafka | RabittMQ (Procesamiento de streaming data)

-          Machine Learning (Supervised Learning) | Natura Language Processing

-          Tableau| PowerBI| Dash

 

Detección de objetos en tiempo real usando TensorFlow (Real Time Object Detection)

La detección de objetos es una técnica de visión por ordenador en la que un sistema de software puede detectar, localizar y rastrear el objeto a partir de una imagen o un vídeo determinado.

El TFM aplicado a detección de objetos en tiempo real, puede enfocarse a resolver un tema que sea del interés del alumno o alguno de los siguientes propuestos:

-          Identificación de la utilización de Celular

-          Detección de movimiento en CCTV

-          Contador de carga de tránsito (contar el número de automóviles que transitan en un periodo de tiempo).

-          Reconocimiento facial (Face recognition)

Se propone la utilización de open video streaming (http://www.insecam.org/)

Tensorflow es una biblioteca de código abierto que facilita el proceso de adquisición de datos entrenamiento de modelos y realización de predicciones, además, agrupa modelos y algoritmos de Machine Learning y Deep Learning.


Detección de lenguaje “machista” en ofertas de empleo

Sin darnos cuenta, todos utilizamos un lenguaje sutilmente "codificado por género". La sociedad tiene ciertas expectativas sobre cómo son los hombres y las mujeres, y cómo se diferencian, y esto se cuela en el lenguaje que utilizamos. Piensa en "mandón" y "luchador": casi nunca utilizamos estas palabras para describir a los hombres.

Esta codificación lingüística de género también aparece en los anuncios de empleo, y las investigaciones han demostrado que disuade a las mujeres de solicitar puestos de trabajo que se anuncian con un lenguaje masculino.

Para este TFM se propone realizar un análisis de diversas ofertas de empleo publicadas en portales (Indeed, monster, LinkedIn, InfoJob, SEPE) y correr un análisis de texto (Text Mining & NLP) para determinar los niveles de inclusión del lenguaje utilizado.

Una vez generadas obtenidas las métricas, se propone la generación de un tablero de mando que permita visualizar claramente las oportunidades de mejora en la utilización de un lenguaje inclusivo dentro de una oferta de trabajo, y se espera que pueda ser consultado por:

·         Área geográfica

·         Tipo de Industria (Administración, tecnología, ciencia, arte, ingeniería)

·         Nivel de mando del puesto

·         Requerimientos académicos

·         Niveles salariales

·         Etc.

Para llevar a cabo este proyecto, se hará uso de las siguientes tecnologías:

-          Web Scrapping para la adquisición de datos (Selenium| Beautiful).

-          Text Mining| Natura Language Processing

-          Tableau | Power BI | Dash |Bokeh (Vizualización).

 

Además de las líneas propuestas, se aceptan propuestas adicionales en función del nivel/interés del alumno (ya sean otros casos de uso dentro de las líneas propuestas como líneas nuevas relacionadas con modelos analíticos).

Otras consideraciones

El profesor colaborador puede atender a estudiantes en castellano e inglés.