En esta página podrás encontrar todo el material utilizando durante el curso para su consulta perpetua. Se irán adjuntando presentaciones, fragmentos de código de cada ejercicio, los datasets utilizados así como las ligas de referencia para cada sesión.
https://colab.research.google.com/drive/1bq-Qi-FSMlm0K7Z4daxC_5TdHia9csic?usp=sharing
Descripción: Crea un DataFrame de pandas que contenga datos ficticios sobre personas, incluyendo nombre, edad, y salario. Asegúrate de incluir algunos valores faltantes (NaN), edades como números y cadenas (por ejemplo, '30 años'), y salarios con diferentes formatos (como '50000', '$50,000', '50k'). Realiza las siguientes tareas de limpieza:
Rellena los valores faltantes en la columna 'edad' con la media de las edades disponibles y en la columna 'salario' con la mediana de los salarios disponibles.
Homogeneiza los formatos de las columnas de 'edad' y 'salario', convirtiendo todo a números enteros. Para la 'edad', extrae solo el número y para el 'salario', convierte todo a un formato sin símbolos ni letras (considera 'k' como 1000).
Manipulación de DataFrames en pandas.
Limpieza de datos: manejo de valores faltantes, extracción y conversión de tipos de datos.
Descripción: Toma la lista de nombres de municipios de Hidalgo (o cualquier otra lista de términos relevantes) y crea una lista de variantes para cada uno (con errores tipográficos, abreviaturas, etc.). Utiliza las técnicas de distancia de Levenshtein para homogeneizar las variantes de los nombres de municipios a la forma estándar más cercana de una lista de referencia.
Implementa una función que tome dos listas (lista de referencia y lista de variantes) y un umbral de similitud. La función debe devolver una nueva lista con las variantes homogeneizadas según la lista de referencia.
Prueba tu función con diferentes umbrales y observa cómo afecta al resultado de la homogeneización.
Uso de la distancia de Levenshtein para comparar cadenas de texto.
Desarrollo y aplicación de funciones personalizadas para la homogeneización de datos.
Descripción: Se te proporciona un dataset que incluye información sobre varias causas de muerte en diferentes países y años. El conjunto de datos incluye las siguientes columnas: country, code, year, meningitis, alzheimer's_disease, parkinson's_disease, nutritional_deficiency, malaria, drowning, interpersonal_violence, maternal_disorders, hiv/aids, drug_use_disorders, tuberculosis, cardiovascular_diseases, lower_respiratory_infections, neonatal_disorders, alcohol_use_disorders, self_harm, exposure_to_forces_of_nature, diarrheal_diseases, environmental_heat_and_cold_exposure, neoplasms, conflict_and_terrorism, diabetes_mellitus, chronic_kidney_disease, poisonings, protein_energy_malnutrition, terrorism, road_injuries, chronic_respiratory_diseases, chronic_liver_diseases, digestive_diseases, fire_heat_hot_substance, acute_hepatitis. Realiza las siguientes tareas:
Carga los datos en un DataFrame de pandas y realiza una inspección preliminar de los datos: revisa las primeras filas, obtén el resumen estadístico de las variables numéricas, y verifica si hay valores faltantes.
Limpia y prepara los datos: trata los valores faltantes de manera apropiada, considera eliminar las columnas que no sean necesarias para el análisis o que contengan una alta proporción de valores faltantes.
Realiza un análisis descriptivo: calcula estadísticas descriptivas para cada causa de muerte, como la media, mediana, y rangos.
Visualiza los datos: crea gráficos que muestren la tendencia de algunas de las principales causas de muerte a lo largo del tiempo y compara las causas de muerte entre diferentes regiones o países.
Crea una matriz de correlación entre las diferentes causas de muerte para identificar posibles relaciones entre ellas.
Carga y limpieza de datos con pandas.
Análisis descriptivo de grandes conjuntos de datos.
Visualización de datos utilizando matplotlib y seaborn.
Interpretación de una matriz de correlación para entender las relaciones entre variables.
Entregable: Un notebook de Jupyter que contenga el código utilizado para realizar el EDA, junto con comentarios que expliquen tus hallazgos y conclusiones. Incluye las visualizaciones generadas y cualquier suposición o decisión tomada durante el análisis.
Drive para guardar propuestas | Se debe de subir el script (puede ser en un block de notas) con su nombre:
https://drive.google.com/drive/folders/11Q1NnhsmXHvVelfAy4zp9GwMYm8DKz4K?usp=sharing
Ejemplos de Matplotlib: https://matplotlib.org/stable/gallery/index
Ejemplos de uso de Pandas: https://pandas.pydata.org/docs/user_guide/10min.html
Ejemplos de uso de NumPy: https://numpy.org/doc/stable/user/basics.html
Documentación de Levenshtein: https://rapidfuzz.github.io/Levenshtein/levenshtein.html