Recursos Útiles

En esta página podrás encontrar todo el material utilizando durante el curso para su consulta perpetua. Se irán adjuntando presentaciones, fragmentos de código de cada ejercicio, los datasets utilizados así como las ligas de referencia para cada sesión.

Recursos Útiles

Unidad 2

Grabación sesión 2

Notebook de sesión 2:

Ejercicios propuestos Sesión 1

Ejercicio 1: Limpieza básica de datos en un DataFrame de pandas

Objetivos de aprendizaje:

Ejercicio 2: Homogeneización de texto y manejo de variantes

Objetivos de aprendizaje:

Ejercicio 3 Modificado: Análisis Exploratorio de Datos (EDA) sobre Causas de Muerte Mundiales

Objetivos de aprendizaje:

Recursos de ayuda

Unidad 2

Grabación sesión 2

Notebook de sesión 2:

https://colab.research.google.com/drive/1bq-Qi-FSMlm0K7Z4daxC_5TdHia9csic?usp=sharing

Ejercicios propuestos Sesión 1

Ejercicio 1: Limpieza básica de datos en un DataFrame de pandas

Descripción: Crea un DataFrame de pandas que contenga datos ficticios sobre personas, incluyendo nombre, edad, y salario. Asegúrate de incluir algunos valores faltantes (NaN), edades como números y cadenas (por ejemplo, '30 años'), y salarios con diferentes formatos (como '50000', '$50,000', '50k'). Realiza las siguientes tareas de limpieza:

Rellena los valores faltantes en la columna 'edad' con la media de las edades disponibles y en la columna 'salario' con la mediana de los salarios disponibles.
Homogeneiza los formatos de las columnas de 'edad' y 'salario', convirtiendo todo a números enteros. Para la 'edad', extrae solo el número y para el 'salario', convierte todo a un formato sin símbolos ni letras (considera 'k' como 1000).

Objetivos de aprendizaje:

Manipulación de DataFrames en pandas.
Limpieza de datos: manejo de valores faltantes, extracción y conversión de tipos de datos.

Ejercicio 2: Homogeneización de texto y manejo de variantes

Descripción: Toma la lista de nombres de municipios de Hidalgo (o cualquier otra lista de términos relevantes) y crea una lista de variantes para cada uno (con errores tipográficos, abreviaturas, etc.). Utiliza las técnicas de distancia de Levenshtein para homogeneizar las variantes de los nombres de municipios a la forma estándar más cercana de una lista de referencia.

Implementa una función que tome dos listas (lista de referencia y lista de variantes) y un umbral de similitud. La función debe devolver una nueva lista con las variantes homogeneizadas según la lista de referencia.
Prueba tu función con diferentes umbrales y observa cómo afecta al resultado de la homogeneización.

Objetivos de aprendizaje:

Uso de la distancia de Levenshtein para comparar cadenas de texto.
Desarrollo y aplicación de funciones personalizadas para la homogeneización de datos.

Ejercicio 3 Modificado: Análisis Exploratorio de Datos (EDA) sobre Causas de Muerte Mundiales

Descripción: Se te proporciona un dataset que incluye información sobre varias causas de muerte en diferentes países y años. El conjunto de datos incluye las siguientes columnas: country, code, year, meningitis, alzheimer's_disease, parkinson's_disease, nutritional_deficiency, malaria, drowning, interpersonal_violence, maternal_disorders, hiv/aids, drug_use_disorders, tuberculosis, cardiovascular_diseases, lower_respiratory_infections, neonatal_disorders, alcohol_use_disorders, self_harm, exposure_to_forces_of_nature, diarrheal_diseases, environmental_heat_and_cold_exposure, neoplasms, conflict_and_terrorism, diabetes_mellitus, chronic_kidney_disease, poisonings, protein_energy_malnutrition, terrorism, road_injuries, chronic_respiratory_diseases, chronic_liver_diseases, digestive_diseases, fire_heat_hot_substance, acute_hepatitis. Realiza las siguientes tareas:

Carga los datos en un DataFrame de pandas y realiza una inspección preliminar de los datos: revisa las primeras filas, obtén el resumen estadístico de las variables numéricas, y verifica si hay valores faltantes.
Limpia y prepara los datos: trata los valores faltantes de manera apropiada, considera eliminar las columnas que no sean necesarias para el análisis o que contengan una alta proporción de valores faltantes.
Realiza un análisis descriptivo: calcula estadísticas descriptivas para cada causa de muerte, como la media, mediana, y rangos.
Visualiza los datos: crea gráficos que muestren la tendencia de algunas de las principales causas de muerte a lo largo del tiempo y compara las causas de muerte entre diferentes regiones o países.
Crea una matriz de correlación entre las diferentes causas de muerte para identificar posibles relaciones entre ellas.

Objetivos de aprendizaje:

Carga y limpieza de datos con pandas.
Análisis descriptivo de grandes conjuntos de datos.
Visualización de datos utilizando matplotlib y seaborn.
Interpretación de una matriz de correlación para entender las relaciones entre variables.
Entregable: Un notebook de Jupyter que contenga el código utilizado para realizar el EDA, junto con comentarios que expliquen tus hallazgos y conclusiones. Incluye las visualizaciones generadas y cualquier suposición o decisión tomada durante el análisis.

Drive para guardar propuestas | Se debe de subir el script (puede ser en un block de notas) con su nombre:

https://drive.google.com/drive/folders/11Q1NnhsmXHvVelfAy4zp9GwMYm8DKz4K?usp=sharing

Recursos de ayuda

Ejemplos de Matplotlib: https://matplotlib.org/stable/gallery/index

Ejemplos de uso de Pandas: https://pandas.pydata.org/docs/user_guide/10min.html

Ejemplos de uso de NumPy: https://numpy.org/doc/stable/user/basics.html

Documentación de Levenshtein: https://rapidfuzz.github.io/Levenshtein/levenshtein.html

Page updated

Google Sites

Report abuse