Ciencia de datos aplicada al estudio de la Obesidad y otras enfermedades crónicas en Córdoba

Laura R. Aballay

Eugenia Haluszka

Descripción

Es un dataset de base poblacional, con datos reales de 4300 sujetos del gran Córdoba que contiene información sobre las características sociodemográficas, antropométricas, de enfermedades crónicas no transmisibles (obesidad, cáncer, enfermedad cardiovascular, diabetes, entre otras), y del estilo de vida, incluyendo en este último aspecto información sobre alimentación y nivel de actividad física. Hay disponible más de 100 features.

La obesidad es una patología que depende de muchos factores y puede asociarse a la presencia de otras enfermedades crónicas. Este dataset cuenta con datos de diferente naturaleza (float, int, object), que permite un amplio abanico de análisis estadísticos y de este han derivado numerosas publicaciones internacionales.

A través del análisis de este dataset, se podrán conocer las características de la población, mediante gráficos interactivos y visualizaciones acordes a la naturaleza de las variables. Además, permitirá construir modelos predictivos de la ocurrencia de la patología y sus comorbilidades asociadas, estableciendo relaciones entre diferentes variables y sus posibles interacciones.


Este tema es interesante porque...

La obesidad es una enfermedad crónica multicausal de alta prevalencia en el mundo y Argentina. La misma se encuentra en constante aumento y en Córdoba son más del 50% las personas que presentan exceso de peso, y un 25% del total con obesidad. Si bien se piensa que los principales factores que influyen en su desarrollo, son un nivel de actividad física inadecuado, el sedentarismo y una alimentación poco saludable, pueden existir otros determinantes de esta condición que deban ser considerados. Sin embargo, muchas veces es difícil contar con todos estos datos y analizarlos de manera conjunta o considerando su efecto sinérgico..

Por otra parte, al conocer los aspectos que más influyen en la ocurrencia de esta enfermedad se podría abordar de manera integral y ofrecer a la población información, realizar recomendaciones y utilizar estos resultados para implementar políticas públicas para enfrentar la pandemia de la obesidad.

Así, en esta mentoría proponemos un dataset que tiene una numerosa variedad de features las cuales permitirán poder seleccionar aquellos que sean los mejores predictores para la enfermedad. También identificar patrones de alimentación y subgrupos de sujetos que compartan ciertas características, y de estas forma descubrir nuevos insights para desarrollar.

Además, resulta interesante desarrollar metodologías para analizar y describir este problema, las que pueden ser replicadas en otros de las Ciencias de la salud y en el que se utilicen principalmente las herramientas que la Ciencia de Datos provee.

Esperamos que en esta mentoría puedas desarrollar y aplicar todas las herramientas y skills aprendidas durante el cursado de la diplomatura. Te proponemos objetivos específicos para la resolución de cada práctico poniendo en juego tus conocimientos y creatividad, y quién te dice encontras tu lado Abby Sciuto/John Snow.

Trataremos de responder algunas de las siguientes preguntas:

  • ¿Cuáles son las principales características de la población de Córdoba en cuanto a sus determinantes bio-socio-económicos?

  • ¿Es la obesidad una enfermedad que depende meramente de la alimentación de los sujetos?

  • ¿Cuáles son los factores alimentarios que promueven el desarrollo de la enfermedad?¿Y cuáles son aquellos que protegen?

  • ¿Se encuentra la obesidad asociada a la enfermedad cardiovascular?¿y al cáncer?

  • ¿Qué variables ayudarían a predecir el estado nutricional de un sujeto de la población de Córdoba?

  • ¿Cuáles son las características más visibles de los grupos según estado nutricional?¿Existen características comunes que nos permitan predecir el estado nutricional que tendrá una persona?

  • ¿Existe algún patrón alimentario característico por grupos según presencia o no de obesidad?



Hitos de la mentoría

22/6 práctico de análisis y visualización, que consistirá en conocer la distribución de las variables y obtener un análisis descriptivo y exploratorio del comportamiento de las mismas en la población y en diferentes subgrupos o estratos de ella. De esta forma se podrán sugerir hipótesis sobre posibles asociaciones con la obesidad.

19/7 práctico de análisis y curación, que consistirá en poder realizar una limpieza previa de los datos verificando inconsistencias de los mismos y posterior uso de herramientas para asegurar la privacidad de los mismos.

16/8 práctico de introducción al aprendizaje automático, que consistirá en identificar cuáles son las variables que permiten medir más eficientemente la probabilidad de desarrollar la enfermedad, haciendo uso de los parámetros y utilizando las métricas adecuadas para evaluar los modelos y de esta forma seleccionar el mejor predictor.

13/9 práctico de aprendizaje supervisado, que consistirá en poder predecir la probabilidad de desarrollar la enfermedad utilizando modelos más complejos (aprendizaje por ensemble) permitiendo mejorar la performance de las estimaciones. Hacer uso de los hiperparametros y evaluar los modelos a través de las métricas correspondientes.

27/9 práctico de aprendizaje no supervisado, que consistirá en la aplicación de algoritmos de clustering y/o análisis de componentes principales, entre otras formas de dimensionar los datos en un espacio (embedding), para poder determinar/conocer patrones emergentes en función de diferentes características incluidas en los análisis; por ejemplo patrones alimentarios nutricionales, características sociodemográficas y antropométricas, perfiles de salud, etc

6/11/2020 – 7/11/2020 presentación de mentorías crear una infografía a partir de los análisis realizados que pueda ser de utlidad para informar y comunicar acerca de los resultados para la población general