Exploración de Datos para identificar los datos faltantes
Ciclo del proyecto
Luego de terminar el proyecto, observe que había una mejora que podía realizar. Si se toman el tiempo de ver el repositorio, encontrarán que en la parte de extracción existe un código en Python para obtener los datos de una pagina de USA de los terremotos y el tiempo de ejecución era de 13 minutos, he mejorado el código para que se ejecute en 2 minutos así:
El código realiza la extracción de datos desde el año 1970 a 2023 en forma mensual hasta el mes actual
El código realiza la extracción de datos desde el año 1970 a 2023 en forma mensual hasta el mes actual, la diferencia es la libreria utilizada (ThreadPoolExecutor(max_workers=8) as executor ) pues se realiza en paralelo.
Repositorio del proyecto: Link
README.md : Main file with all info about the project.
Datasets : This folder contains all datasets used in this project.
Datasets_csv : This folder contains all datasets used in this project in CSV format.
ML : Folder that contains all assets for the Machine Learning model.
driver :Contains driver to use Web Scrapping.
imgs : Contains all images.
Gantt diagram : Contains Gantt's diagram that shows prpject trajectory.
ETL : Python Notebook that contains all Extraction, Transformation and Load (ETL) process.
EDA : Python Notebook that contains all Exploratory Data Analysis (EDA).