5.3 Introducción al análisis de varianza.
Introducción
Las respuestas generadas en una situación experimental siempre presentan cierta variabilidad. En un análisis de varianza, la variación total de las mediciones de respuesta se desglosa en componentes que pueden atribuirse a diversos factores de interés para el experimentador. Cuando el experimento está adecuadamente diseñado, estas componentes pueden emplearse para responder preguntas sobre los efectos de los distintos factores en la variable de interés.
Similar a cómo la prueba de la suma de rangos de Wilcoxon representa la alternativa no paramétrica a la prueba t de Student para la comparación de medias poblacionales, la prueba H de Kruskal-Wallis desempeña el papel no paramétrico equivalente al análisis de la prueba F de varianza en un diseño completamente aleatorizado. Esta prueba se utiliza para identificar diferencias en las ubicaciones entre más de dos distribuciones poblacionales basadas en muestreo aleatorio independiente.
Definición
Una unidad experimental es el objeto en el que se toma una medición (o mediciones).
Un factor es una variable independiente cuyos valores son controlados y variados por el experimentador.
Un nivel es el escenario de intensidad de un factor.
Un tratamiento es una combinación específi ca de niveles de factor.
La respuesta es la variable que es medida por el experimentador.
SUPOSICIONES PARA ANÁLISIS DE EXAMEN DE VARIANZA
Las observaciones dentro de cada población están distribuidas normalmente con una varianza común.
Las suposiciones respecto al procedimiento de muestreo son especificadas para cada diseño en las secciones que siguen.
Uno de los diseños experimentales más sencillos es el diseño completamente aleatorizado, en el que muestras aleatorias se seleccionan de manera independiente de cada una de k poblaciones. Este diseño comprende sólo un factor, la población de donde proviene la medición, de aquí la designación como una clasificación en una dirección.
TABLA ANOVA PARA k MUESTRAS ALEATORIAS INDEPENDIENTES: DISEÑO COMPLETAMENTE ALEATORIZADO
PRUEBA F PARA COMPARAR K MEDIAS POBLACIONALES
Suposiciones: Las muestras son seleccionadas al azar y en forma independiente de sus respectivas poblaciones. Las poblaciones están normalmente distribuidas con medias; m1, m2, . . . , mk y varianzas iguales.
Prueba Friedman
La prueba de Friedman es similar a ANOVA de dos vías balanceada clásica de la sección anterior, pero compara solo para efectos de columna después de ajustar posibles efectos de renglón. No prueba para efectos de renglón o efectos de interacción. Además para poder aplicar la prueba ANOVA en algún experimento, los datos deben seguir algunos supuestos; independencia de las observaciones, la distribución de los residuales debe ser normal y tener homocedasticidad (homogeneidad de las varianzas). Por otro lado, en una prueba no paramétrica no es necesario que los datos se identifiquen con una distribución de probabilidad específica. La prueba de Friedman es una prueba no paramétrica y es apropiada cuando las columnas representan tratamientos que están bajo estudio, y los renglones efectos de ruido (bloques) que necesitan ser tomados en consideración pero no son de interés.
Ejemplo:
Doce empleados de una planta industrial son seleccionados al azar para participar en un experimento para la automatización de un proceso de armado. Se le pidió a cada empleado que seleccionara cuatro días para operar cuatro dispositivos de automatización para tal proceso. Al final de un período de tiempo específico, se le pidió a cada operario que clasificara los tipos de dispositivos en orden de preferencia, calificando criterios importantes como tiempo de inicialización, mantenimiento requerido, ergonomía, volumen de producción, preferencia estética, etc. El rango 1 fue asignado al dispositivo menos preferido y el rango 4 el favorito. La premisa es que no hay diferencia en las preferencias de los tipos de dispositivos de automatización. Cada uno de los 12 bloques consta de cuatro dispositivos con condiciones laborales bastante idénticas, puesto que recibe aproximadamente el mismo grado de habilidad, porque presumiblemente los cuatro dispositivos son atendidos por el mismo operario. Los resultados del experimento se muestran en el Cuadro siguiente:
Solución
A continuación se revisará el mismo cálculo de rangos en R
PreferenciasDispositivos <-
matrix(c(1, 3, 2, 4,
2, 4, 1, 3,
3.5,1,2,3.5,
4, 1, 3, 2,
4, 2, 3, 1,
3.5, 1, 2, 3.5,
4, 3, 2, 1,
4, 2, 3, 1,
3, 1.5, 1.5, 4,
3, 1, 2, 4,
4, 2, 1, 3,
2, 2, 2, 4 ),
nrow = 12,
byrow = TRUE,
dimnames = list(1 : 12,
c("D1", "D2", "D3","D4")))
En este caso, el número de renglones nrow es 12 con cuatro tratamientos; c("D1", "D2", "D3","D4"). Si sumamos los rangos al cuadrado, se obtiene el valor de A1.
> PreferenciasDispositivos^2
D1 D2 D3 D4
1 1.00 9.00 4.00 16.00
2 4.00 16.00 1.00 9.00
3 12.25 1.00 4.00 12.25
4 16.00 1.00 9.00 4.00
5 16.00 4.00 9.00 1.00
6 12.25 1.00 4.00 12.25
7 16.00 9.00 4.00 1.00
8 16.00 4.00 9.00 1.00
9 9.00 2.25 2.25 16.00
10 9.00 1.00 4.00 16.00
11 16.00 4.00 1.00 9.00
12 4.00 4.00 4.00 16.00
> sum(PreferenciasDispositivos^2)
[1] 356.5
R tiene la función friedman.test(), que realiza la prueba no paramétrica de Friedman, en nuestro caso basta con ejecutar la siguiente instrucción.
> friedman.test(PreferenciasDispositivos)
Friedman rank sum test
data: PreferenciasDispositivos
Friedman chi-squared = 8.0973, df = 3, p-value = 0.04404
Como k=4, usamos la plantilla de Iman and Davenport (k>2), en el caso de usar el criterio de rechazo para la primer plantilla ( prueba de Friedman para k>5), la conclusión se contrapone a la expuesta, esto es, puesto que
la conclusión con esta plantilla no es fiable.
LA PRUEBA H DE KRUSKAL-WALLIS PARA COMPARAR MÁS DE DOS POBLACIONES: DISEÑO COMPLETAMENTE ALEATORIZADO (MUESTRAS ALEATORIAS INDEPENDIENTES)
Suposiciones: Todos los tamaños muestrales son mayores o iguales a 5. Los empates toman el promedio de los rangos que hubieran ocupado de no haber estado empatados.
En R.
A <- c(8,7,9,13,10)
B <- c(14,16,12,17,11)
C <- c(10,12,16,15,12)
kruskal.test(A,B,C)
Ejemplo
En un experimento para determinar el efecto de la nutrición en nuevo suplemento alimenticio, se miden intervalos de atención de estudiantes de escuelas elementales, un grupo de 15 estudiantes se asignaron al azar a cada uno de tres planes de comidas: no suplemento, suplemento y suplemento doble. Sus intervalos de atención (en minutos) se registraron durante un periodo de lectura por la mañana y se muestran a continuación; No supemento 8,7,9,13,10, suplemento 14, 16, 12, 17,11, suplemento doble 10,12,16,15,12. Construya el análisis de tabla de varianza para este experimento. Y pruebe la hipótesis de que el promedio de los alumnos en los tres tratamientos son iguales, para una alpha de 0.05.
Solución
En R.
> resp <- c(8,7,9,13,10,14,16,12,17,11,10,12,16,15,12)
> tr <- c(rep(1,5),rep(2,5),rep(3,5))
> suplemento <- data.frame(respuesta <- resp, grupo=factor(tr))
> suplemento.aov <- aov(respuesta~grupo, data=suplemento)
> summary(suplemento.aov)
Df Sum Sq Mean Sq F value Pr(>F)
grupo 2 58.53 29.267 4.933 0.0273 *
Residuals 12 71.20 5.933
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1