Predicción de indicadores sociales para países del MERCOSUR

Johanna Frau

Motivación

Actualmente nos encontramos atravesando una época de auge de la Ciencia de Datos. Este boom muchas veces nos lleva a querer analizar, encontrar particularidades, correlaciones y hacer predicciones de datos que se presentan a nuestro alcance. No cabe duda, y existen muchos casos reales conocidos, que esta fascinación por los datos y por automatizar procedimientos es un arma de doble filo si no somos conscientes de lo que podemos generar con nuestros análisis. No obstante, si tenemos presente esto último podemos ser capaces de producir muy buenas contribuciones y obtener conclusiones de gran utilidad para otras personas. Una de las clave está entonces en enriquecer y ayudar a otras áreas desde la Ciencia de Datos, el ámbito social es una de ellas.

Descripción del Problema y los datos

Teniendo datos de variables relacionadas a diferentes indicadores sociales (Educación, Género, Medio Ambiente, Pobreza, Protección Social y Salud) de los años comprendidos en el intervalo 1960-2019 en esta mentoría se propone, en base a un análisis exhaustivo de la información, realizar una predicción de cada uno de estas variables para el año 2019 de los países pertenecientes al MERCOSUR y sus estados asociados.

Para resolver el problema se utilizarán los datos de libre acceso del Banco Mundial particularmente los relacionados con Argentina, Brasil, Paraguay, Uruguay, Venezuela, Bolivia, Chile, Colombia, Ecuador, Guyana, Perú y Surinam.

Se dispondrá de un dataset por indicador y por país. Cada de ellos posee una estructura similar donde las columnas se asocian a los años de la franja temporal considerada (59 columnas en total desde 1960 a 2019) y las filas representan diferentes variables relacionadas con el indicador. Todas las variables toman valores numéricos y gran parte de ellas en formato de porcentaje. Se proporcionará además la descripción (diccionario) de cada una de estas variables. La longitud en cuanto a cantidad de filas de cada dataset varía de acuerdo al indicador considerado.

El problema resulta muy atractivo desde lo social pues la disponibilidad de diferentes indicadores y sus variables abre un gran campo al análisis de datos dentro de los diferentes contextos sociales. Es por esto que durante el transcurso de la mentoría se buscará responder los siguientes interrogantes:


  • ¿Existen variables más relevantes dentro de un mismo indicador?

  • ¿Existen correlaciones entre las variables o son totalmente independientes entre sí?

  • ¿Cómo es la tendencia de cada una de las variables a lo largo del tiempo? ¿Se observa algún comportamiento extraño? ¿Qué sucede con los valores en la última década?

  • ¿La presencia de datos faltantes se relaciona con algún contexto social-económico-político? Por ejemplo: dictaduras, crisis económicas, huelgas, etc.

  • ¿Es posible subsanar de alguna forma los valores faltantes?

  • ¿Existen variables compartidas entre los diferentes indicadores considerados?

  • ¿Las distribuciones de las variables dentro de un mismo indicador son similares entre los países del MERCOSUR? ¿y entre países con frontera compartida?

  • ¿ Existe relación entre los datos relacionados a la Educación con los relacionados al Género? ¿Qué podría decirle acerca de los datos del indicador de Pobreza respecto a los de Protección Social y Salud? En caso que exista relación, ¿se extrapola a toda la región o es particular a cada país?

  • y muchas más...🙌😃


Para ver un muestreo de los datos ir al siguiente link.

Hitos de la mentoría

  • 22/06/2020 Práctico de análisis y visualización

Durante esta materia es muy probable que trabajemos con datos a partir de 1970 debido a la gran presencia de valores nulos en los primeros años. Se buscará principalmente analizar las distribuciones de las variables a lo largo del tiempo para cada par país-indicador. Se buscará además encontrar correlaciones, si es que existen, entre variables y entre diferentes indicadores. Finalmente trataremos determinar similaridades entre los países considerados. Esta materia será un gran puntapié para resolver el problema de predicción.


  • 19/07/2020 Práctico de análisis y curación

El dataset completo tiene bastante trabajo de curación. Nos encontraremos con algunas variables con filas completamente nulas y otras con valores nulos en algunos años o por lotes de años. En esta etapa habrá que tomar decisiones importantes acerca de cómo tratar dichos valores teniendo en mente el objetivo final de predicción y nos basaremos mucho en las visualizaciones y el análisis realizado en la primer materia.


  • 16/08/2020 -- 13/09/2020 Práctico de introducción al aprendizaje automático y de Aprendizaje Supervisado

En esta instancia probaremos diferentes algoritmos de machine learning para predecir nuestras variables. Si bien el problema en sí es un problema de series temporales la idea es comenzar probando algoritmos más simples y no tan abocados a series temporales (Support Vector Machine por ejemplo) con el objetivo de aprender acerca de su implementación y analizar la performance de acuerdo a diferentes parámetros. En caso que el tiempo lo permita probaremos algoritmos exclusivos para series temporales.

  • 27/9/2020 Práctico de aprendizaje no supervisado

En esta materia averiguaremos si el aprendizaje no supervisado puede darnos información extra a la encontrada hasta el momento. Intentaremos por ejemplo descubrir si existen clusters o agrupaciones de años o de variables que el aprendizaje supervisado no haya descubierto, incluso clusters por países.

  • 6/11/2020 -- 7/11/2020: Presentación de mentorías



Por cualquier pregunta o duda sobre la mentoría y sus alcances pueden enviarme un mail a johannafrau18@gmail.com y la responderé con todo gusto (también me pueden encontrar en el slack de la Diplo) 😃.