Coronavirus en Argentina y el mundo

María Lucía Pappaterra

Los datos

Tenemos un conjunto de datos que se basa principalmente en los informes diarios, matutinos y vespertinos, que emite el gobierno nacional, y se actualiza diariamente con cada nuevo informe publicado. Puede consultar los mismos en:

https://www.argentina.gob.ar/coronavirus/informe-diario

En el mismo se registran día a día variables como: cantidad de infectados, nuevos, totales, importados, locales, comunitarios, proporción de mujeres, varones, altas, tests negativos, tests cada millón de habitantes, muertes del día, muertes totales, entre otras. También se discrimina información por provincia.


Si querés inspeccionar el conjunto de datos, lo encontrarás en https://github.com/lucia15/Datos-Covid19-Argentina


En el README se encuentra un esbozo de cómo sería cada uno de los prácticos de la mentoría.


Si el dataset no es lo suficientemente grande para los objetivos que nos proponemos, o necesitamos más información, también estamos abiertos a utilizar otros datasets de los tantos disponibles en internet.

Objetivos:

Trataremos de responder algunas de las siguientes preguntas:


  • ¿Qué información relevante podemos obtener de un primer análisis exploratorio y descriptivo de los datos que disponemos?


  • ¿Es posible predecir la cantidad de infectados que tendrá una región (país o provincia) en base a los datos que se encuentran presentes en este dataset?


  • ¿Se puede desarrollar un modelo predictivo de las posibilidades de contagio, incidencia, muerte, recuperación, etc., en base a las características de los infectados hasta el momento? (perfiles de riesgo)


  • ¿Es factible realizar un análisis de clusters de las distintas regiones (provincias o países) afectadas y qué información relevante podríamos extraer de esto?


Y las que vayan surgiendo a lo largo del proceso de trabajo. Además de cuáles pueden ser las implicancias éticas de trabajar con este tipo de datos.

El tema es importante porque puede darnos algunas pistas para enfrentar la emergencia sanitaria que estamos viviendo.

Hitos de la mentoría


22/6 Práctico de Análisis y Visualización

Uso de estadísticas descriptivas para el análisis del set de datos. Responder a distintas preguntas generales respecto al dataset, por ejemplo:

  • Cantidad de infectados (nuevos y totales, recuperados, fallecidos) por región (país o provincia) por día

  • Proporción de casos importados, locales y comunitarios en Argentina

  • Cantidad de testeos cada 100 mil habitantes, proporción positivos/negativos, negativos acumulados

  • Diferencia entre las distintas provincias en el caso de Argentina

Determinar la tasa de ocurrencia de algún fenómeno, por ejemplo:

  • Tasas de contagio, testeo, mortalidad, hospitalización, recuperación

  • Tasa de mortalidad por país y por provincia (Argentina)

Señalar si existe correlación entre dos o más variables, por ejemplo:

  • Entre mortalidad y distintas comorbilidades

Estudiar la distribución de alguna variable de interés, por ejemplo:

  • Distribución etaria de los infectados y fallecidos

  • Clasificación por género y posibles diferencias del impacto del virus en cada uno

19/7 Práctico de Análisis y Curación

Procesar el conjunto de datos para poder utilizarlos en el análisis exploratorio de los mismos. Tener en cuenta:

  • Datos faltantes, datos nulos, ¿los eliminamos? ¿nos dicen algo? ¿podemos completarlos?

  • Consistencia de los datos, ¿existe información contradictoria? ¿Qué hacemos si la hubiera?

  • Outliers, ¿tenemos?, ¿cómo los tratamos?

  • Indagar en la forma en que está presentada la información, ¿podríamos re organizarla de otra manera?

  • Considerar la posibilidad de crear nuevas variables (columnas) en base a las ya disponibles (o quizás incorporando otra información). Esto puede ser útil para los análisis que nos propongamos hacer a futuro.

Puesto que este dataset fue creado y es mantenido por una sola persona, algunos de los incisos anteriores están orientados a mejorar la consistencia y calidad del mismo. Una buena idea puede ser compararlo con otros dataset similares.

16/8 Práctico de Introducción al Aprendizaje Automático

Nos proponemos utilizar algunos algoritmos básicos de aprendizaje automático para intentar encontrar patrones en los datos, y evaluar los resultados usando métricas estándares para cada tipo de problema.

El objetivo es que pensemos en las distintas formas que puede tomar el modelado de un problema con datos, y en el trabajo de selección de features que debe realizarse para poder abordarlo.

13/9 Práctico de Aprendizaje Supervisado

Profundizar el trabajo realizado en el práctico anterior. Intentaremos mejorar los resultados iterando sobre la ingeniería de atributos, el modelado, y el análisis de la salida de los modelos.

27/9 Práctico de Aprendizaje No Supervisado

Realizar un k-means clustering para clasificar los países (o regiones) según alguna(s) variable(s) de interés.

6/11/2020 – 7/11/2020 Presentación de Mentorías

Expondremos lo más relevante de todo el proceso de trabajo, las dificultades que encontramos y los resultados alcanzados.