5.3 Introducción al análisis de varianza.

Introducción

Las respuestas generadas en una situación experimental siempre presentan cierta variabilidad. En un análisis de varianza, la variación total de las mediciones de respuesta se desglosa en componentes que pueden atribuirse a diversos factores de interés para el experimentador. Cuando el experimento está adecuadamente diseñado, estas componentes pueden emplearse para responder preguntas sobre los efectos de los distintos factores en la variable de interés.

Similar a cómo la prueba de la suma de rangos de Wilcoxon representa la alternativa no paramétrica a la prueba t de Student para la comparación de medias poblacionales, la prueba H de Kruskal-Wallis desempeña el papel no paramétrico equivalente al análisis de la prueba F de varianza en un diseño completamente aleatorizado. Esta prueba se utiliza para identificar diferencias en las ubicaciones entre más de dos distribuciones poblacionales basadas en muestreo aleatorio independiente.


Definición

SUPOSICIONES PARA ANÁLISIS DE EXAMEN DE VARIANZA

Uno de los diseños experimentales más sencillos es el diseño completamente aleatorizado, en el que muestras aleatorias se seleccionan de manera independiente de cada una de k poblaciones. Este diseño comprende sólo un factor, la población de donde proviene la medición, de aquí la designación como una clasificación en una dirección.

TABLA ANOVA PARA k MUESTRAS ALEATORIAS INDEPENDIENTES: DISEÑO COMPLETAMENTE ALEATORIZADO

PRUEBA F PARA COMPARAR K MEDIAS POBLACIONALES

Suposiciones: Las muestras son seleccionadas al azar y en forma independiente de sus respectivas poblaciones. Las poblaciones están normalmente distribuidas con medias; m1, m2, . . . , mk  y varianzas iguales.

Prueba Friedman

La prueba de Friedman es similar a ANOVA de dos vías balanceada clásica de la sección anterior, pero compara solo para efectos de columna después de ajustar posibles efectos de renglón. No prueba para efectos de renglón o efectos de interacción. Además para poder aplicar la prueba ANOVA en algún experimento, los datos deben seguir algunos supuestos; independencia de las observaciones, la distribución de los residuales debe ser normal y  tener homocedasticidad (homogeneidad de las varianzas). Por otro lado, en una  prueba no paramétrica no es necesario que los datos se identifiquen con una distribución de probabilidad específica. La prueba de Friedman es una prueba no paramétrica y es apropiada cuando las columnas representan tratamientos que están bajo estudio, y los renglones efectos de ruido (bloques) que necesitan ser tomados en consideración pero no son de interés.

Ejemplo:

Doce empleados de una planta industrial son seleccionados al azar para participar en un experimento para la automatización de un proceso de armado. Se le pidió a cada empleado que seleccionara cuatro días para operar cuatro dispositivos de automatización para tal proceso. Al final de un período de tiempo específico, se le pidió a cada operario que clasificara los tipos de dispositivos en orden de preferencia, calificando criterios importantes como tiempo de inicialización, mantenimiento requerido, ergonomía, volumen de producción, preferencia estética, etc. El rango 1 fue asignado al dispositivo menos preferido y el rango 4 el favorito. La premisa es que no hay diferencia en las preferencias de los tipos de dispositivos de automatización. Cada uno de los 12 bloques consta de cuatro dispositivos con condiciones laborales bastante idénticas, puesto que recibe aproximadamente el mismo grado de habilidad, porque presumiblemente los cuatro dispositivos son atendidos por el mismo operario. Los resultados del experimento se muestran en el Cuadro siguiente: 

Solución

A continuación se revisará el mismo cálculo de rangos en R

PreferenciasDispositivos <-

     matrix(c(1, 3, 2, 4,

              2, 4, 1, 3, 

              3.5,1,2,3.5,

              4, 1, 3, 2, 

              4, 2, 3, 1,

              3.5, 1, 2, 3.5,

              4, 3, 2, 1,

              4, 2, 3, 1,

              3, 1.5, 1.5, 4,

              3, 1, 2, 4,

              4, 2, 1, 3,

              2, 2, 2, 4  ),

            nrow = 12,

            byrow = TRUE,

            dimnames = list(1 : 12,

                            c("D1", "D2", "D3","D4")))

En este caso, el número de renglones nrow es 12 con cuatro tratamientos;  c("D1", "D2", "D3","D4"). Si sumamos los rangos al cuadrado, se obtiene el valor de A1. 

> PreferenciasDispositivos^2

      D1    D2   D3    D4

1   1.00  9.00 4.00 16.00

2   4.00 16.00 1.00  9.00

3  12.25  1.00 4.00 12.25

4  16.00  1.00 9.00  4.00

5  16.00  4.00 9.00  1.00

6  12.25  1.00 4.00 12.25

7  16.00  9.00 4.00  1.00

8  16.00  4.00 9.00  1.00

9   9.00  2.25 2.25 16.00

10  9.00  1.00 4.00 16.00

11 16.00  4.00 1.00  9.00

12  4.00  4.00 4.00 16.00

> sum(PreferenciasDispositivos^2)

[1] 356.5

R tiene la función friedman.test(), que realiza la prueba no paramétrica de Friedman, en nuestro caso basta con ejecutar la siguiente instrucción.

> friedman.test(PreferenciasDispositivos)

Friedman rank sum test

data:  PreferenciasDispositivos

Friedman chi-squared = 8.0973, df = 3, p-value = 0.04404

Como k=4, usamos la plantilla de Iman and Davenport (k>2), en el caso de usar el criterio de rechazo para la primer plantilla ( prueba de Friedman para k>5), la conclusión se contrapone a la expuesta, esto es, puesto que

 

la  conclusión con esta plantilla no es fiable. 

LA PRUEBA H DE KRUSKAL-WALLIS PARA COMPARAR MÁS DE DOS POBLACIONES: DISEÑO COMPLETAMENTE ALEATORIZADO (MUESTRAS ALEATORIAS INDEPENDIENTES)

Suposiciones: Todos los tamaños muestrales son mayores o iguales a 5. Los empates toman el promedio de los rangos que hubieran ocupado de no haber estado empatados.

En R.

A <- c(8,7,9,13,10)

B <- c(14,16,12,17,11)

C <- c(10,12,16,15,12)

kruskal.test(A,B,C)

Ejemplo

En un experimento para determinar el efecto de la nutrición en nuevo suplemento alimenticio, se miden  intervalos de atención de estudiantes de escuelas elementales, un grupo de 15 estudiantes se asignaron al azar a cada uno de tres planes de comidas: no suplemento, suplemento y suplemento doble. Sus intervalos de atención (en minutos) se registraron durante un periodo de lectura por la mañana y se muestran a continuación; No supemento 8,7,9,13,10, suplemento 14, 16, 12, 17,11, suplemento doble 10,12,16,15,12.  Construya el análisis de tabla de varianza para este experimento. Y pruebe la hipótesis de que el promedio de los alumnos en los tres tratamientos son iguales, para una alpha de 0.05.

Solución

En R.

> resp <- c(8,7,9,13,10,14,16,12,17,11,10,12,16,15,12)

> tr <- c(rep(1,5),rep(2,5),rep(3,5))

> suplemento <- data.frame(respuesta <- resp, grupo=factor(tr))

> suplemento.aov <- aov(respuesta~grupo, data=suplemento)

> summary(suplemento.aov)




            Df Sum Sq Mean Sq F value Pr(>F)  

grupo        2  58.53  29.267   4.933 0.0273 *

Residuals   12  71.20   5.933                 

---

Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Ejercicio 5.3 ‎(Responses)‎