Medidas de desempeño.Validar un modelo consiste en contrastar sus predicciones respecto a datos considerados independientes para obtener una medida de 1) su significancia en relación con una cierta hipótesis nula, o 2) su desempeño (capacidad de clasificar correctamente nuevos datos). En esta sección nos vamos a concentrar en medidas de desempeño. La mayor parte de las medidas modernas de desempeño están basadas en la así llamada matriz de confusión. En el diagrama de la derecha se representa la región ocupada en la realidad (la "verdad") con el color azul, y la prediccion, con el color amarillo. Los puntos de prueba, (puntos independientes usados par verificar el modelo) pueden caer en cuatro regiones. Las estrellas están bien clasificadas y los círculos son errores. Así, puntos caídos en a están correctamente identificados como presencias, y puntos caidos en d son ausencias correctamente identificadas. Los puntos obscuros son errores de omisión (b), y los circulos abiertos son errores de comisión. En ENM/SDM los errores de omisión significan clasificar equivocadamente un dato de gran fuerza, que es una ocurrencia, tal vez respaldada por un ejemplar físico. Por el contrario, los errores de comisión significan clasificar como ausentes puntos de muchos tipos, en donde la especie puede estar ausente por una variedad de razones, o simplemente no haber sido detectada.
La matriz de confusión. Una "matriz de confusion" (a la derecha) resume esta información. Prácticamente todas las medidas de desempeño de los modelos SDM/ENM (kappa, True Skill Statistic; ver Fielding y Bell 2000 para un buen resumen) están basadas en combinaciones de estos números.
ROCs y AUCs. Una de las principales herramientas utilizadas para validar ENM/SDM es la llamada Receiver Operating Characteristic (ROC), una curva que describe la tasa de identificación correcta de presencias (sensitivity, en las y) contra la tasa de falsas alarmas (1-specificity, en las x). Cuando se obtienen estos números para un rango de valores de umbral (para decidir si un punto se debe calificar como ausencia o presencia), se traza la ROC, que es la linea roja en la figura del lado derecho. La linea azul es la que se obtendria si para diferentes valores del umbral se utilizara un clasificador enteramente aleatorio. La idea de la ROC a su vez da origen a el estadístico llamado AUC (Area Under the Curve), que es el área total bajo la curva roja. Un clasificador aleatorio tiene una AUC de 0.5. Un muy buen clasificador tiene un área muy cercana a 1 (!o a cero, sorprendentemente!). El estadístico AUC fue desarrollado originalmente para describir el desempeño de aparatos de radar. A despecho de ser un estadístico de uso casi universal en la literatura de ENM/SDM, la AUC tiene muchos problemas serios (Austin, 2007; Lobo et al. 2007; Peterson et al. 2008). Entre otros:
En vista de estos problemas se desarrollo desde hace varios años la idea de ROCs parciales. En la ROC parcial, como se usa en ENM/SDM, hay las siguientes diferencias:
Recomendaciones:
ROC completa, con la tasa de errores de comisión en el eje x y la tasa de identificacion correcta de presencias en el eje de las y. El area total bajo la linea azul (b) es de 0.5
UNA ROC parcial. Se considera únicamente la sección de la curva comprendida entre el valor de la curva en el punto E. El valor 1-E es la proporción de errores de omisión mínima tolerada (por ejemplo, 0.05).