Validación de modelos para eventos raros: análisis de algunas propuestas

Una etapa importante en la selección de un modelo es evaluar la calidad de las predicciones realizadas por el mismo. Así, para esta finalidad surgen métricas tales como sensibilidad e especificidad, y en el marco de Aprendizaje de Máquinas (Machine Learning) las técnicas denominadas de validación cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap, entre otras).

Estos métodos están basados en la separación de la base de datos en dos muestras: una muestra de ajuste y otra una muestra de validación, en la que se verifica el desempeño del modelo. Entretanto, al considerar problemas en que la variable respuesta es binaria con pocas observaciones del evento de interés -que llamaremos aquí de eventos raros- es necesario considerar algunas modificaciones en todo el proceso de modelaje. En este trabajo se propone un método de adaptación de las técnicas de validación cruzada delante un “desequilibrio” en la base para que puedan ser utilizados modelos de regresión logística. Un estudio de simulación es presentado para evaluar esta propuesta. La aplicación de las métricas usuales y las técnicas de validación cruzada es realizada sobre una base de datos real del Ministerio de Salud de Brasil referente a la mortalidad en pacientes diagnosticados con Síndrome Inflamatoria Multisistémica Pediátrica (SIM-P) asociado as.COVID-19.