Caso de Estudio
Los datos provienen de un historial crediticio de los clientes de una institución financiera. El Objetivo es predecir la pérdida por incumplimiento de pagos y crear un modelo que ayude a predecir futuros posibles morosos a partir de un perfil, esto con el fin de ayudar a las instituciones financieras a tomar las medidas correspondientes para asegurar sus carteras.
Puedes obtener los datos en Kaggle
En la vida real, nos encontramos con una enorme cantidad de datos cuando nos desenvolvemos en un entorno microeconómico, como es el caso, por lo que es necesario utilizar un software más potente como lo es Python y realizar las operaciones que solemos hacer con más facilidad en Excel o Stata.
En este caso, lo primero es entender los datos que nos proporciona la base de datos, para ello el trabajo se hace más fácil por lo que esta dispone de un diccionario (LCDataDictionary).
En segundo lugar, Al examinar el significado de los datos es conveniente entonces especificar el modelo a partir de algunas hipótesis que nos planteemos acerca de las características de los individuos que influyen en la probabilidad de no pagar una deuda.
Personalmente solo elegí algunas variables para este ejemplo, como lo son:
loan_status o Estado del Préstamo, donde es necesario convertir esta variable a dicótoma, la cual toma valor de 1 cuando el estado es "charged off", es decir, esta cuenta fue cancelada por impago, esta variable entonces es la dependiente.
verification_status, esta variable indica el estado de la verificación de los ingresos que reportó el cliente, también es conveniente convertirla a dicótoma para cuando tome el valor de 1 cuando esté en "Not Verified". Se espera que los ingresos no verificados estén asociados al impago de un préstamo. (+)
int_rate, esta variable indica la tasa de interés del préstamo, un préstamo con mayor tasa de interés, se asocia a un préstamo con mayor riesgo. (+)
4. annual_inc, esta variable indica el ingreso anual, se espera que a mayores ingresos mayor capacidad de pago, ya sea por flujo de caja o por disponer posiblemente de activos que respalden la obligación, por lo que se espera una relación negativa. (-)
5. inq_last_6mths, esta variable indica el número de consultas realizadas en los últimos 6 meses, normalmente se asocia con clientes riesgosos que buscan en diferentes instituciones financieras la aprobación de un crédito. (+)
6. emp_length, esta variable indica la duración en el empleo actual, se asocia a mayor estabilidad financiera. (-)
7.dti, ratio de deuda, esta variable mide la relación entre los pagos por cuotas de todas las deudas y los ingresos del cliente, determina el grado de solvencia de un cliente, se asocia a la incapacidad de pago. (+)
Lo anterior es necesario materializarlo en Python para luego realizar la estimación con un Modelo Logit
Paso a Paso del Tratamiento de los datos y la estimación del modelo, así como de la generación de probabilidades.
Breve Análisis
Observamos en el Modelo Logit, que todas las variables son estadísticamente significativas (P-Value < 0.05 or 0.01), también la mayoría de los signos son esperados, excepto la variable dti (Ratio de deuda), la cual para valores altos se está asociando con mayor capacidad de pago, esto puede deberse a que las personas con grandes ingresos tienen mayor ratio de deuda. Después de todo a mayor ingreso, las entidades financieras permiten un mayor cupo de crédito.
Segunda parte en Python - Recolectamos los datos para calcular la pérdida esperada
Parte Final - Estimacion de la Perdida Esperada
En primer lugar, para cada grupo de probabilidades asignadas a cada cartera, encontraremos la distribución que mejor se ajusta a esos datos, para de esta forma encontrar un estimador bastante eficiente que represente dicha muestra.
Para cada cartera generará una hoja con un informe que tendrá el supuesto ajustado, este representará la probabilidad de impago de esa cartera.
Finalmente calculamos las pérdidas esperadas para cada cartera:
PE = Exposición * LGD * Pi
Obtenemos el total y calculamos un pronóstico de salida con miles de pruebas, en nuestro caso 2955 bastaron para tener suficiente certeza de que en promedio se espera una pérdida del 4.59% del portafolio, la desviación estándar es demasiado pequeña, por lo que, en el peor de los casos la pérdida catastrófica es casi nula al igual que la pérdida no esperada.