Con mi equipo desarrollamos una visualización sobre los Flujos Migratorios en América, explicando los motivos para migrar en Latinoamérica, basados en los factores económicos y de calidad de vida. Además desarrollamos un modelo de Machine Learning para la migración neta por país y el factor porcentaje de desempleo por país.
Desarrolle un Proyecto de Data Analytics creando 3 dashboards en Power BI en base a datos sobre empresas de telecomunicaciones sobre servicios de internet, diseñando y evaluando 4 indicadores de desempeño (KPI) asociados al acceso al servicio de internet, ingresos trimestrales y velocidad (Mbps) de internet.
Nuestra start-up provee servicios de agregación de plataformas de streaming. A partir de datos obtenidos de diferentes plataformas de stream (Amazon, Disney, Hulu y Netflix) crearé un modelo de Machine Learnig que de solución a un problema de nuestro negocio: un Sistema de recomendación.
El ciclo de vida de un proyecto de Machine Learning contempla desde el tratamiento y recolección de los datos (Data Engineer stuff) hasta el entrenamiento y mantenimiento del modelo de Machine Learning según llegan nuevos datos.
Comenzamos con un proceso ETL donde trabajaremos con bases de datos de diferentes plataformas (Amazon, Disney, Hulu y Netflix), los que contienen datos sobre películas y series, su duración, rating, puntuación, etc. Los datos entregados son procesados, según las exigencias del cliente.
Luego corresponde investigar las relaciones entre las variables del dataset. Identificar outliers o anomalías y ver si hay algún patrón interesante a explorar en un análisis. Para nuestro sistema de recomendación serán de utilidad las columnas de usuario, title, id y score (puntuación dada por los usuarios). A partir del EDA realizado podemos entender los datos y proseguimos a entrenar nuestro modelo de Machine Learning para desarrollar un sistema de recomendación de películas. Éste consiste en recomendar películas basándose en películas similares en términos de puntaje (score), devolviendo un listado de 5 películas y su puntaje. Para crearlo fue utilizada la Descomposición en Valores Singulares (SVD) para el modelado y entrenamiento y la cross validation (validación cruzada) para su evaluación.
Para disponibilizar los datos a los usuarios es que usando el framework FastAPI, creamos 6 endpoints que se consumen en la API.