Determinación del tamaño de muestra necesario para un estudio de solo una estación
Antes de comenzar la realización de un estudio de la ocupación, debemos tener una seguridad razonable de que los datos que planeamos recolectar proporcionarán estimados que están debidamente precisa para nuestros objetivos de estudio. En un estudio de ocupación que nos interesa principalmente en la precisión de los valores estimados de la ocupación del sitio (psi), o posiblemente en un valor estimado preciso de la cantidad de sitios ocupados en un área de estudio finito. La precisión de estos valores estimados, a su vez, dependerá de una serie de factores, algunos bajo nuestro control, otros no:
La probabilidad de ocupación del sitio real (psi) - será no asume bajo nuestro control
El número de sitios de nuestra área de estudio (S) - a menudo no está bajo nuestro control
La probabilidad de detección (p) -. A veces bajo nuestro control (como en, se puede aumentar con un mayor esfuerzo por muestra). Pero nosotros generalmente suponemos que p no está bajo nuestro control
El número de sitios incluidos en la muestra (s) - Esto puede que el número total de sitios de nuestra área de estudio (s = S) o (a menudo) una muestra de sitios ofrecen de alguna lista mayor (s < S, muestra finita) o s < S y S asumieron infinitamente grande. Vamos a suponer que nuestra elección de s está bajo nuestro control
Número de replicados (k) por cada sitio-k se supone que está bajo nuestro control.
Usualmente, vamos a tener una determinada cantidad de recursos (dinero, tiempo), y tendremos que decidir cómo asignar estos recursos. Si los costos de visitar los sitios individuales, o muestreo en varias ocasiones un sitio determinado, fueron los mismos ( por lo general no lo son, pero por simplicidad asuman que son), entonces (por ejemplo) como = 100 k = 2 estudio tomaría el mismo esfuerzo que como = 50, k = 4 estudio - pero darían bastante diferentes de datos, con posiblemente muy diferente de precisión en psi estimado. Así, una versión simplificada de la cuestión de diseño de estudio es:
¿Cuáles combinaciones de s (sitios muestreados) y k (replicados por sitio) nos proporcionarán la precisión necesaria para nuestro estudio?
Vamos a abordar este problema mediante el uso de una aproximación de la varianza basado a los valores esperados (McKenzie et al. 2006) que produce un valor estimado del coeficiente de variación (se (psi) / psi) como una función de s, k, psi, y p. A continuación, se especifique valores de psi y s o psi y p y explorar combinaciones de p y k o s y k en términos del valor esperado de cv.
Primero vamos a especificar un directorio que contendrá ninguna entrada utilizada o salida creado y guardado.
> #set here the directory where your data files are located
> #data_dir<-"C:/Users/mike/Dropbox/company/pacblackduck/workshop/occupancy"
> #data_dir<-"C:/Documents and Settings/conroy/My Documents/Dropbox/company/pacblackduck/workshop/occupancy"
> data_dir<-"C:/mydir"
> setwd(data_dir)
Entonces he escrito una pequeña función definida por el usuario que produce cv para las entradas dadas de psi, p, s, y k
>
> sample_approx<-function(psi,p,nsites,nreps)
+ {
+ k<-nreps
+ s<-nsites
+ pstar<-1-(1-p)^k
+ d1<-(s*pstar)+psi*(1-pstar)*k*p*(1-pstar)
+ d2<-s*pstar*(pstar*(1-p)-k*p*(1-pstar))
+ var_psi<-psi*(1-psi)/s +psi*(1-pstar)/(d1*d2)
+ return(sqrt(var_psi)/psi)
+ }
>
Luego utiliza esto para producir gráficas de 2 tipos de comparaciones de los diseños de los estudios. En el primero, vamos a suponer una probabilidad de ocupación fija (por ejemplo, psi = 0.8) y el número de sitios (por ejemplo, s = 100) y luego ver lo que se consigue cv por diferentes combinaciones de detección (p = 0.2-0.5 ) y replicados (k = 2, 3,4,5)
> #PLOTS
> #1- fixed number of sites and detection prob, vary p and n reps
> detect<-c(.2,0.3,0.4,.5)
> nsites<-100
> psi<-0.8
> sim_expts1<-data.frame(nsites=as.numeric,psi=as.numeric,p=as.numeric,nreps=as.numeric,cv=as.numeric)
> for (p in detect)
+ {
+ for (nreps in 2:5)
+ {
+
+ cv<-sample_approx(psi,p,nsites,nreps)
+ cv<-data.frame(nsites,psi,p=p,nreps=nreps,cv=cv)
+ sim_expts1<-rbind(sim_expts1,cv)
+
+ }
+ }
> sim_expts1
nsites psi p nreps cv
1 100 0.8 0.2 2 0.14737756
2 100 0.8 0.2 3 0.07564258
3 100 0.8 0.2 4 0.05927628
4 100 0.8 0.2 5 0.05413498
5 100 0.8 0.3 2 0.07892687
6 100 0.8 0.3 3 0.05617907
7 100 0.8 0.3 4 0.05208666
8 100 0.8 0.3 5 0.05091049
9 100 0.8 0.4 2 0.06035667
10 100 0.8 0.4 3 0.05203719
11 100 0.8 0.4 4 0.05067438
12 100 0.8 0.4 5 0.05028642
13 100 0.8 0.5 2 0.05426001
14 100 0.8 0.5 3 0.05080960
15 100 0.8 0.5 4 0.05025790
16 100 0.8 0.5 5 0.05010235
>
> p_levels<-detect
> lab<-paste("psi=",psi," n sites=",nsites,"p=",p_levels[4],"(solid)","p=",p_levels[1],"-",p_levels[3],"(dashed)")
> lims<-range(sim_expts1$cv)
> with(sim_expts1,plot(nreps[p==p_levels[1]],cv[p==p_levels[1]],type="l",main=lab,ylab="CV",xlab="Number of reps",xaxt="n",ylim=lims))
> axis(1, at = 1:5)
> for (px in p_levels)
+ {
+ with(sim_expts1,matlines(nreps[p==px],cv[p==px],lty=2))
+
+ }
> savePlot(filename="cv_vs_reps.by.p.jpg",type="jpg")
>
Esto produce la gráfica
El segundo análisis se supone la misma psi = 0.8 y una p fijo (por ejemplo, p = 0.3) y luego mira a 5 parcelas de cv frente al número de replicados (k = 2 a 5), con cada parcela para un número determinado de sitios muestras (s = 25, 50, 75, y 100).
Dependiendo de la situación, uno o el otro (o ambos) de estas parcelas (tanto guardados en el directorio de trabajo) pueden ser útiles. Alternativamente, los usuarios pueden modificar el programa para incorporar los factores de costo y realizar una optimización más formal (por ejemplo, utilizando procedimientos de optimización numérica en R).
Se proporciona el código para los análisis anteriores aquí . Por último, como se señaló este análisis se basa en las expectativas y las aproximaciones de la varianza. También he proporcionado aquí código alternativo basado en simulación de Monte-Carlo para una estimación más exacta ML.
Siguiente -- Ejercicios