ETL y API de peliculas
A partir de una base de datos en bruto, que contiene información sobre películas, (Titulo, Actores, Géneros, Presupuesto, Recaudación, Idioma y Director), tras limpiarla, normalizarla y prepararla, se genero una API donde se pudiera consultar información sobre los distintos datos, plataformas, actores, promedios, etc. Incluso se genero un sistema que te recomienda películas en base a tus gustos.
Pandas, Numpy, Matplotlib, Seaborn, Re
esta en deepnote para que puedas fácilmente ejecutarlo y analizarlo. se realizaron las siguientes acciones:
Algunos campos, como belongs_to_collection, production_companies y otros (ver diccionario de datos), estaban anidados. han sido desanidados para poder y unirlos al dataset nuevamente hacer alguna de las consultas de la API. O bien, buscar la
Los valores nulos de los campos revenue, budget fueron rellenados con el número 0.
Los valores nulos del campo release date fueron eliminados.
las fechas se pusieron en formato AAAA-mm-dd. Además, y se creo la columna release_year donde se extrajo el año de la fecha de estreno.
Se creó la columna con el retorno de inversión, llamada return, con los campos revenue y budget, dividiendo estas dos últimas revenue / budget. Cuando no había datos disponibles para calcularlo, se tomó el valor
Se eliminaron las columnas que no serán utilizadas: video, imdb_id, adult, original_title, poster_path y homepage.
FastApi, Pandas, Numpy
Se disponibilizaron los datos de la empresa mediante el framework FastAPI utilizando distintos def para las tareas.
Las consultas posibles a las que se puede acceder con el decorador @app.get('/') son las siguientes:.
Se ingresa un mes en idioma Español. Debe haber devuelto la cantidad de películas que fueron estrenadas en el mes consultado en la totalidad del dataset. Ejemplo de retorno: X cantidad de películas fueron estrenadas en el mes de X
Se ingresa un día en idioma Español. Debe haber devuelto la cantidad de películas que fueron estrenadas en el día consultado en la totalidad del dataset. Ejemplo de retorno: X cantidad de películas fueron estrenadas en los días X
Se ingresa el título de una filmación esperando como respuesta el título, el año de estreno y el score. Ejemplo de retorno: La película X fue estrenada en el año X con un score/popularidad de X
Se ingresa el título de una filmación esperando como respuesta el título, la cantidad de votos y el valor promedio de las votaciones. La misma variable deberá haber contado con al menos 2000 valoraciones, en caso contrario, debemos haber contado con un mensaje avisando que no cumple esta condición y que por ende, no se devolvió ningún valor. Ejemplo de retorno: La película X fue estrenada en el año X. La misma cuenta con un total de X valoraciones, con un promedio de X
Se ingresa el nombre de un actor que se encuentre dentro de un dataset, debiendo haber devuelto el éxito del mismo medido a través del retorno. Además, la cantidad de películas en las que ha participado y el promedio de retorno. La definición no debió haber considerado directores. Ejemplo de retorno: El actor X ha participado en X cantidad de filmaciones. El mismo ha conseguido un retorno de X con un promedio de X por filmación
Se ingresa el nombre de un director que se encuentre dentro de un dataset, debiendo haber devuelto el éxito del mismo medido a través del retorno. Además, debió haber devuelto el nombre de cada película con la fecha de lanzamiento, retorno individual, costo y ganancia de la misma.
A partir de un titulo se entrega 5 películas similares a esta, ordenadas a partir de su puntuación