Bondad de ajuste

Una vez que tenemos valores estimados de los parámetros soponiendo un modelo en particular, debemos examinar si el modelo se ajuste a los datos. La falta de ajuste puede indicato unas violaciones de los supuestos del modelo, y proporcionar valores estimados sesgados. Existen varios aproximaciones de la bondad de ajuste que se han aplicado a los análisis de CMR.

Aproximación de valor esperado

En la aproximación más simple, primero calculamos valores estimados de máxima verosimilitud de los parámetros del modelo, y luego, tomandolos como los valores verderderos de los parámetros, calcular los valores esperados de los datos (o resúmenes de los datos). Luego se comparan los valores esperados a los valores observados y se calculan una prueba estadística ( tal comon ji cuadrado). Por ejemplo, con el modelo de Lincoln-Petersen, tenemos 3 parámetros: N, p1, y p2. Calculamos los valores estimados de MLE N ^, p1 ^, y p2 ^ luego usarlos para calcular los valores esperados para las tres frecuencias de las historia de captura observable: x10, x01 y x11 para los números observados la primera ocasión única, sola la segunda, o ambas ocasiones. Los valores esperados se computadan como

E ( x10) = Np1 (1-p2)

E (x01) =Np2 (1-p1)

E (x11) = Np1p2

susteyendo los MLEs por N, p1, p2 . Entonces formamos un estadístico chi-cuadrado computando

(Observado- Esperado) ^ 2/Esperado

y luego sumando estos valores. Esta estadística deberes siguen una distribución chi-cuadrado con gl = número de células de observación-no. de parámetros estimados.

Obviamente, sin embargo para el LP que los rendimientos 0 df, por lo que no existe una prueba significativa, los valores de puntería de chi-cuadrado todavía nos dan una idea de si el modelo es "afuera" o no (los deberes de valor sean alrededor de 1 o menos). He implementado esto para los los datos de conejos anteriores aquí. Si construimos un modelo diferente, por ejemplo suponiendo p1 = p2, entonces tendríamos una prueba con 1 gl y el valor de signficacia p será computable.

Tablas de contingencia

Para los problemas más grandes (k> 2 ocasiones de captura) al aproximación anterior frecuentemente falla, porque hay muchas historias pueden ser capturado (por ejemplo, 1023, si k = 10), pero la mayoría de estos tendrán frecuencias típicamente de 0 ó 1. Una alternativa es formar diferentes resúmenes de los datos y aplicar una serie de pruebas basadas en tablas de contingencia. Esto es más o menos el método que se usará más tarde para los modelos CJS, y se implementa en el programa RELEASE. Esta aproximación también puede ser útil para modelos cerrados, pero principalmente para las pruebas de heterogeneidad entre las muestras (por ejemplo, evidencia de que las probabilidades de captura difieren entre áreas del estudio).

Aproximación de la desviación

La desviación, calculada como -2ln (verosimilitud), es una medida de ajuste en esta definición se reduce al mínimo en virtud de máxima verosimilitud. Teóricamente, la desviación se distribuye según una distribución de chi-cuadrado bajo la hipótesis nula es cierto que el modelo, con grados de libertad que variará de acuerdo con el tamaño de los datos y el número de parámetros. Desviación / df es una medida de la falta de ajuste (o sobredispersión) y deberías estar cerca de 1 si los supuestos del modelo se están cumpliendo. La desviación se calcula automáticamente para todos nuestros modelos MLE, meta tienden a sobre-estado falta de ajuste en la práctica, lo que el bootstrap más intensivo enfoques discutidos abajo computacionalmente.

Podemos ilustrar el uso de la desviación como una medida de ajuste volviendo al ejemplo de edwards.eberhardt y estimando del modelo nulo (M0) null. Centrándonos únicamente en la desviación y la salida relacionada obtenemos

>require(RMark)

>data(edwards.eberhardt)

>pdotshared=list(formula=~1,share=TRUE)

>m0<-mark(edwards.eberhardt,model="Closed", model.parameters=list(p=pdotshared))

>m0$results$real

>deviance<-m0$results$deviance

>df<-m0$results$deviance.df

>pvalue<-1.-pchisq(deviance,df)

>cat("chisq=",deviance,"df=",df,"p=",pvalue,"c-hat",deviance/df,"\n")

chisq= 364.8259 df= 42 p= 0 c-hat 8.686332

Esto parece indicar una falta de ajuste fuerte para este modelo (el valor de chi-cuadrado significativa, la desviación / df >> 1). El código para realizar cálculos en R. Volveremos a este ejemplo y utilizar el método de bootstrap , por debajo.

Aproximación de bootstrap paramétrico

Como se ha notado anteriormente, la desviación o de otros aproximaciones a veces exageran la falta de ajuste. Como alternativa, se puede utilizar un enfoque de simulación computarizado llamado bootstrapping paramétrico . Los pasos básicos son:

Seleccionar una estadística de ajuste, como la desviación, y calcular su valor usando los datos de la muestra, bajo un modelo determinado (por ejemplo, el modelo nulo M0 para simplicidad)
Estimar los parametros de este modelo usando los datos y calcular los valores estimados de máxima verosimilitud de los parámetros, así como un valor para la desviación
Entonces, suponiendo que se ha especificado correctamente el modelo y los valores estimados son los valores de los parámetros reales para este modelo, simular historias de captura. En el sencillo ejemplo este implica la generación de N filas de las historia de captura (una para cada animal en la "población" ) y luego lanzar una moneda con probabilidad p para los éxitos que son capturar un animal en cada una de las ocasiones k, con capturados designado 1 (cara) y no capturados como 0 (cruz) .
Utilizando las historias de captura simulados como datos para calcular los valores estimados de N, p y la desviación
Repetir este proceso un número amplio (por ejemplo 1000) veces para generar una distribución de los valores de desviación.
Por último, comparar la desviación observada (a partir de los datos) a la distribución de las desviaciones simuladas para ver si el valor observado es "inusualmente grande" (por ejemplo,> el percentil 95% a partir de la simulación). Si lo es, entonces se concluye que hay falta de ajuste, lo contrario no. Podemos también calcular una estadística de bootstrap c-hat por

(desviación Observado) / (media desviación simulada),

y juzgar si este valor es mucho mayor que 1.

Podemos appoach ilustrar esto volviendo al ejemplo edwards.eberhardt. Los resultados basados proporcionarnos los valores estimado de datos de N= 96.25 (esta rondeado a N = 96 para la simulación), p = 0.082, y la desviación = 364.83. Los valores de N y p se utilizan para simular los datos de la de cada uno de los 96 animales y 18 ocasiones de captura como ensayos de Bernoulli con la probabilidad de éxito p = 0.082. Cada conjunto de datos simulados se ejecuta a través de RMark para calcular valores estimados y la desviación, y están resumido (promedio y el intervalo de confianza de 95%). Aquí están los resultados de 100 simulaciones:

results mean= 293.5524 lower= 231.9108 upper= 345.4985

En comparación, la desviación observada es un poco más alto que el extremo superior de 2.5% de 354, que indica falta de ajuste. Podemos también examinar la relación de la desviación al valor simulado media observada y calcular un valor de c-hat de bootstrap:

observed deviance= 364.8259 bootstrap c-hat= 1.242797

Aquí está el código para realizar estos cálculos.

Tenga en cuenta que la simulación serán más fiables que el número de repeticiones se baja (1000 o más); sin embargo, esto tiende a ser lento, ya que los datos-tiene que ser simulado y el modelo de gestión cada vez. Pruebe a ejecutar simulaciones de 1000 a ver si le da resultados diferentes.

Cosas de tener en cuenta

Aunque es una buena idea para ver si un modelo se ajusta a los datos particulares, bondad de ajuste no es la panacea.

El hecho de que un modelo se ajusta a los datos, no quiere decir que es "verdad". Será este el caso en particular cuando los datos son escasos. A menudo modelos muy simples pueden ajustar a los datos solo debido los datos no pueden apoyar un modelo con mayor complejidad.
Por el contrario, el ajuste más cerca de un modelo a los datos no es siempre una buena cosa. Recuerde, nosotros podemos hacer un modelo hecho arbitrariamente bien con sólo añadir parámetros (lo que hará que la probabilidad de subir y bajar la desviación). Propósito pagamos un precio para añadir demasiados parámetros - por el incremento de la varianza de las estimaciones. Aquí es donde entra en AIC - Ajuste de equilibrio (que reduce el sesgo mediante la adición de parámetros) y la varianza (reducido mediante la eliminación de los parámetros)
Las ideas anteriores llevan a un enfoque general a lo largo de las líneas de la tesis:
- A ver si cualquier modelo ajustará bien a los datos así, entre su conjunto de modelos candidatos. A menudo, este será un general (global llamada) Este modelo contiene muchos parámetros
- Calcular el valor del AIC para los modelos de la serie modelo (incluyendo el "modelo global") para ver cuál (s) un rendimiento óptimo (tener menor AIC)
- Utilice ya sea el modelo más bajo AIC, o (mejor) estimados de los parámetros promediados entre los modelos de computación utilizando los pesos del AIC.

Siguiente: Ejercicios

Page updated

Google Sites

Report abuse