Redacción de Resultados de Análisis Estadísticos
Pedro Prieto. ULL. 2023
pprieto@ull.edu.es
Pedro Prieto. ULL. 2023
pprieto@ull.edu.es
Ejemplo Matriz de Correlaciones
Cuando se informa del resultado de un estudio cuantitativo, la American Psychological Association [APA] (1999, 2001, 2010) y la American Educational Research Association [AERA] (2006) recomiendan incluir la estimación del tamaño del efecto y sus intervalos de confianza así como la interpretación cualitativa de la magnitud del efecto en el contexto de los efectos reportados previamente. Así pues, ya no basta con comparar grupos de tratamiento y obtener el valor p de significación estadística, además hay que estimar los tamaños del efecto y sus intervalos de confianza. (Soler, 2013, http://psiqu.com/1-4773 ).
De aquí llegamos a dos importantes conlcusiones: Una, la ya señalada de incluir el tamaño del efecto además de informar sobre la signifcación estadística. Y la segunda es que si se incluye dicho valor en el informe, en muchos casos no basta con añadir ese número, sino seguramente merece algún comentario sobre el mismo; especialmente en los casos en los que no se haya alcanzado niveles de significación estadística en el contraste realizado, pero se haya obtenido un valor alto del tamaño del efecto; o al contrario, cuando la prueba estadística haya arrojado un resultado estadísticamente significativo, pero se haya obtenido un valor bajo del tamaño del efecto.
La mayoría del software estadístico hoy en día nos da los tamaños de los efectos de cada contraste que realizamos. Si en algún momento no nos diera ese dato aquí tienes un par de formas sencillas de llegar a èl.
1) Si partimos de un contraste T, podemos obtener el valor de R cuadrado mediante
R2 = T2 / (T2 + gl), donde T2 es el valor del estadístico T al cuadrado, y gl sus correspondientes grados de libertad
o bien
d de Cohen, d= 2 * t / RAIZ (gl)
2) En el caso de un contraste F, podemos calcular
d= 2 * RAIZ(gl1 * F / gl2)
o
R2= gl1 * F / (gl1*F + gl2)
3) Para un contraste Z
d= 2* Z / RAIZ(N)
3) Para un contraste Chi2
d= 2 * RAIZ (Chi2 / (N-Chi2))
o
R2= Chi2 / N
Para redactar los resultados de un test de independencia Chi 2 se debe incluir:
·Los grados de libertad (gl) en paréntesis
·El valor Chi Cuadrado (Χ2) (También conocido como el test estadístico Chi 2)
·El valor p.
Ejemplo
·Una prueba chi cuadrado de independencia mostró una relación significativa entre el Género y el Producto Preferido, Χ2(8) = 19.7, p = .012.
·Una prueba chi cuadrado de independencia no mostró ninguna relación significativa entre el Género y el Producto Preferido, Χ2(8) = 1.7, p = .450.
Como indicador del tamaño del efecto se puede incluir el valor de la V de Cramer. Por ejemplo:
Una prueba chi cuadrado de independencia mostró una relación significativa entre el Género y el Producto Preferido, Χ2(8) = 19.7, p = .012, V= .24.
Para interpretar la V de Cramer, a menudo se utiliza el siguiente enfoque:
V∈[0.1,0.3]: asociación débil.
V∈[0.4,0.5]: asociación media.
V>0,5: asociación fuerte.
Los coeficientes de correlación se presentan con los grados de libertad (N-2) entre paréntesis junto con el nivel de significación. Se puede incluir (opcional) el coeficiente de determinación. No se incluye el 0 antes del punto de decimales, tanto en el coeficiente de correlación como en la p asociada. Si se informa del valor exacto de p se debe indicar previamente en el trabajo el valor de alfa empleado.
Ejemplos:
... se calculó el coeficiente de correlación de Pearson entre las variables X e Y. Los resultados señalan que las dos variables están fuertemente correlacionadas, r(55) = .49, p < .001.
... se calculó el coeficiente de correlación de Pearson entre las variables Extraversión y Apertura. Los resultados señalan que las dos variables están medianamente correlacionadas, r(198) = .27, p < .001.
... se calculó el coeficiente de correlación de Pearson entre las variables X e Y, encontrándose una correlación positiva estadísticamente significativa entre ambas, r(55) = .49, p < .001, r2 =0.24.
.. se calculó el coeficiente de correlación de Pearson entre las variables X e Y, no encontrándose ninguna correlación estadísticamente significativa entre ambas, r(55) = .02, p = .88.
...La correlación entre ambas variables resultó ser estadísticamente significativa, r(110) = .335, p < .001. El valor de R2 fue de .11 indicando que aproximadamente solo un 11% de la variabilidad de la Nota de Fundamentos es explicada por las Horas de Estudio.
drive.google.com/file/d/1M7ca-ddrZn0wCDOdK7JZmknVR0vRYIRq/view?usp=sharing
Seguidamente se calculó la matriz de coeficientes de correlación entre las diversas variables analizadas. Como puede verse en la tabla, se aprecia una correlación positiva significativa entre el nivel de sexismo en los videojuegos (SV) con las situaciones de acoso realizado (AR) (r(68) = .423, p < .001), así como una correlación positiva estadísticamente significa entre técnicas de evitación utilizadas (TEU) y situaciones de acoso sufrido (AS) (r(68) = .515, p < .001), y una ligera correlación negativa con la edad (r(68)= -.295, p = .013). Por último, también se observa una correlación negativa significativa entre edad y situaciones de acoso sufridas (AS) (r(68) = -.356, p =.002).
...se llevó a cabo un análisis de regresión tomando como variable predictora el Apoyo Social y como variable criterio las puntuaciones en Depresión.
a) Los resultados muestran que la variable Apoyo Social predice de forma significativa las puntuaciones en Depresión, β = -.34, t(225) = 6.53, p < .001.
b) Los resultados muestran que la variable Apoyo Social explica una proporción significativa de la varianza de las puntuaciones en Depresión, r2 = .12, F(1, 225) = 42.64, p < .001.
Otro ejemplo:
...encontramos que la pendiente B=.38, t(110)= 3.72, p < .001 fue estadísticamente significativa y por tanto aceptamos la hipótesis de relación lineal entre las variables NF y HEs.
Seguidamente se llevó a cabo un análisis de regresión múltiple en el que se tomó como variable criterio IE y como variables predictoras los ocho factores de la escala CSI. Los resultados indican que el conjunto de variables predictoras da cuenta de una proporción estadísticamente significativa de la varianza de la variable IE (F(8, 76) = 11.78, p < .001, R2 = .55 , R2Ajustada = .51 ). Un análisis más detallado de los resultados mostró que solamente resultaron ser predictores estadísticamente significativos de IE los factores RDP, β = .282, t(82)= 2.l63, p = .01, y REC, β = .487, t(82)= 4.54, p < .001, siendo la influencia este último 1.7 veces superior al factor RDP.
Seguidamente se llevó a cabo un análisis de regresión múltiple paso a paso en el que se tomó como variable criterio la Puntuación Total en IE y como variables predictoras los ocho factores de la escala CSI. Finalmente, solamente resultaron ser predictores estadísticamente significativos de la IE los factores RDP, b = 0.282, t(82)= 2.l63, p = .01, y REC, b = 0.487, t(82)= 4.54, p < .001, siendo la influencia este último 1.7 superior al factor RDP. Los resultados indican que ambas variables predictoras dan cuenta de una proporción estadísticamente significativa de la varianza de la variable IE (F(2, 82) = 11.78, p < .001, R2 =.53 , R2Ajustada = .51 ).
Grupos Independientes.
a) [[[La prueba de Levene mostró que se cumplía con el supuesto de homegeneidad de varianzas F(2,98)=3.24, p = .71, por lo que se llevó a cabo un contraste T de medias independientes basado en la igualdad de varianzas.]]] No se encontraron diferencias significativas entre ambos sexos en la habilidad de procesamiento secuencial, t(99) = 1.53, p = .13, d = .12.
b) La prueba de Levene mostró que se cumplía con el supuesto de homogeneidad de varianzas, F(2,98)=3.24, p = .71, por lo que se llevó a cabo un contraste T de medias independientes basado en la igualdad de varianzas, encontrándose diferencias significativas entre ambos sexos en la habilidad de procesamiento secuencial, t(191 ) = 6.22, p < .001 , d = 1.14, siendo la media del grupo de mujeres (M = 11.45, DT = 4.56) superior a la del grupo de hombres (M = 9.88, DT = 2.78).
c) La prueba de Levene mostró que no se cumplía con el supuesto de homegeneidad de varianzas, (F(2,195)= 79.02, p < .001, por lo que se llevó a cabo un contraste T de medias independientes basado en la no igualdad de varianzas, encontrándose diferencias significativas entre ambos sexos en la habilidad de procesamiento secuencial, t(183,17) = 12.609, p < 0.001 , d = 1.83, siendo la media del grupo de mujeres (M = 11.45, DT = 4.56) superior a la del grupo de hombres (M = 9.88, DT = 2.78).
Nota: En caso de homogeniedad de varianzas se emplea la prueba T de Student. En caso de no homogeneidad se emplea la T de Welch.
Grupos Relacionados
a) Para determinar si las notas finales aumentaban al pasar de curso se llevó a cabo una prueba T de muestras relacionadas en la que se tomó como variable dependiente la nota final de curso y como variable independiente [o factor intragrupo] el año académico en el que se tomaron las notas. Los resultados muestran que existen diferencias estadísticamente significativas entre las notas medidas en los dos diferentes años (t(19) = -6,48, p < .001, d= -1,45), siendo la media del grado 2 (M = 58.4, DT = 6.41) superior a la del grado 1 (M = 57, DT = 6.62)
Nota: El texto subrayado entre [[[ ]]] es opcional.La comprobación de los supuestos de las pruebas es un asunto que concierne principalmente al investigador, y en base a lo cual decide qué estadístico utiliza y qué corrección debe llevar a cabo. Si a eso añadimos el poco espacio del que se dispone en la revistas para cada trabajo,hace que no sea habitual encontrar esta información en los resultados de los artículos que se publican. Y las pocas veces que se reflejan en los informes son solo para indicar que se incumplía alguno de los supuestos y señalar qué corrección se había empleado a la hora del análisis de datos.
Otra forma de abreviar la redacción es indicar simplemente qué estadístico se utilizó, si el de Student o el de Welch. En cualquier caso un lector 'avispado' puede concluir qué estadístico fue el utilizado mirando los grados de libertad. El estadístico T de Student no tiene valores decimales en sus grados de libertad.
... se llevó a cabo un análisis de varianza de una vía tomando como variable dependiente la variable SV y el factor Grupo de Edad como variable independiente. Los resultados muestran que existen diferencias estadísticamente significativas en SV entre los diferentes Grupos de Edad, F(2,54 ) = 5.6 , p < .001, η2= 0.17. En la tabla X se pueden ver las medias y varianzas obtenidas en SV en cada uno de los 3 Grupos de Edad.
CONTRASTES PLANEADOS
a) Las comparaciones mediante contrastes ortogonales del grupo de menor edad frente al resto de grupos arrojó una diferencia significativa t(54) = -2.65, p = .03, r2= 0.11, siendo la media superior en dicho grupo de edad [[[ (M=6.73, DT=2,10 frente a M=5.10, DT=2.31)]]] El segundo contraste ortogonal al primero, que comparó los grupos de mediana y elevada edad, mostró diferencias estadísticamente significativas en SV a favor de este último grupo [[[(M=5.32, DT=2.07 frente a M=4.38, DT=2.36)]]]. (Esta 'familia' de 2 contrastes ortogonales corresponde a los contrastes tipo Helmert).
Nota: El texto subrayado entre [[[ ]]] es opcional si se añade una tabla de medias y desviaciones típicas
b) The planned quadratic contrast analysis yielded a statistically significant result, t(df_error) = T_value, p = ....., r2=...
c) El contraste de tendencia lineal arrojó un resultado estadísticamente significativo t(25) = 12.4, p = .04, r2= .25.
POST HOC
En cuanto a las pruebas post hoc es importante señalar el método de control del nivel alfa que se ha empleado, como en el siguiente caso:
1) An one way analysis of variance showed that the effect of noise was significant, F(3,27) = 5.94, p = .007. Post hoc analyses using the Scheffé post hoc criterion for significance indicated that the average number of errors was significantly lower in the white noise condition (M = 12.4, SD = 2.26) than in the other two noise conditions (traffic and industrial) combined (M = 13.62, SD = 5.56), F(3, 27) = 7.77, p = .042.
2) Tests of the four a priori hypotheses were conducted using Bonferroni adjusted alpha levels of .0125 per test (.05/4). Results indicated that the average number of errors was significantly lower in the silence condition (M = 8.11, SD = 4.32) than were those in both the white noise condition (M = 12.4, SD = 2.26), F(1, 27) = 8.90, p =.011 and in the industrial noise condition (M = 15.28, SD = 3.30), F (1, 27) = 10.22, p = .007. The pairwise comparison of the traffic noise condition with the silence condition was nonsignificant. The average number of errors in all noise conditions combined (M = 15.2, SD = 6.32) was significantly higher than those in the silence condition (M = 8.11, SD = 3.30), F(1, 27) = 8.66, p = .009.
Sin embargo muchos autores hoy en día optan por solo incluir el valor de p en la redacción de los resultados, como en los siguientes ejemplos:
Tukey’s HSD Test for multiple comparisons found that the mean value of exam score was significantly different between technique 1 and technique 2 (p = 0.024, 95% C.I. = [-14.48, -0.92]). There was no statistically significant difference in mean exam scores between technique 1 and technique 3 (p=0.883) or between technique 2 and technique 3 (p=0.067).
"Post-hoc tests were conducted using Tukey's HSD procedure to determine which groups had significantly different means. The adjusted alpha level used to control for Type I error was .05. Results showed that Group A had a significantly higher mean (M = 8.5, SD = 2.3) than Group B (M = 5.2, SD = 1.9; p < .001) and Group C (M = 6.1, SD = 1.5; p < .01). There was no significant difference in means between Groups B and C (p = .35)."
Como verás en los anteriores ejemplos, tomados de artículos reales, los autores no incluyeron los tamaños de los efectos....Sería recomendable que la hubieran hecho.
Como último ejemplo veamos lo que nos sugiere ChatGPT como plantilla para un análisis Oneway. La pregunta fue "how to report a oneway anova in APA format? "
A one-way analysis of variance revealed a significant effect of [independent variable] on [dependent variable] (F(2, 87) = 5.32, p < 0.01). Post hoc tests using Tukey's HSD indicated that Group 1 (M = 25.4) significantly differed from both Group 2 (M = 30.2, p = 0.015) and Group 3 (M = 28.8, p = 0.027). The effect size was moderate, accounting for approximately 12% of the variance (η² = 0.12). These findings suggest that [provide interpretation]. Confidence intervals and visual representations are presented in Figures 1 and 2 (see Appendix for details).
Y nos recuerda que debemos adaptar esta plantilla para nuestro caso concreto. ChatGPT puede ser una buena ayuda para redactar los resultados de cualquier análisis estadístico.
En el caso de un ANOVA de más de una factor conviene tener en cuenta si la interacción entre los mismos resulta ser o no estadísticamente significativa. En caso de serlo pasaríamos a hablar únicamente de la misma, y nos olvidaríamos de los efectos principales (fueran estos significativos o no).
En el caso de que la interacción no resultara ser estadísticamente significativa pasaríamos a comentar los efectos principales, del mismo modo en que lo haríamos con un análisis de varianza de una vía, incluyendo los análisis ortogonales o post-hoc si hubiera lugar a los mismos.
Ejemplos
a) ... se llevó a cabo un ANOVA 2 x2 de dos vías intergrupo para analizar el efecto de la frecuencia de riego y la exposición solar sobre el crecimiento de las plantas. Ninguno de los efectos principales, ni la interacción resultaron estadísticamente significativos. Los resultados de dicho ANOVA se presentan en la tabla X.
o
b) ... se llevó a cabo un ANOVA 2 x 2 de dos vías intergrupo tomando como variables independientes la frecuencia de riego y la exposición solar, y el crecimiento de las plantas como variable dependiente. Ninguno de los efectos principales, ni la interacción resultaron estadísticamente significativos. Los resultados de dicho ANOVA se presentan en la tabla X.
En este caso en el que no existe ningún efecto significativo puede resultar más ágil presentar la tabla ANOVA, más que redactar tres valores de F, con sus grados de libertad, y valores p asociados todos ellos no signifcativos
El mismo ejemplos en inglés pero sin utilizar una tabla:
A two-way ANOVA was performed to analyze the effect of watering frequency and sunlight exposure on plant growth.
The analysis revealed that there was not a statistically significant interaction between the effects of watering frequency and sunlight exposure (F(1, 16) = 0.09, p = .767, η2=0.06).
Simple main effects analysis showed that watering frequency did not have a statistically significant effect on plant growth (F(1, 16) = 0.9, p = .564, η2=0.08).
Neither sunlight exposure did have a statistically significant effect on plant growth (F(1, 16) = 0.8, p = .563, η2=0.08).
Como se aprecia es mucho más ágil presentar la tabla que desperdiciar texto para señalar la irrelevancia de tres efectos del mismo ANOVA.
En el caso de existir efectos principales podríamos redactarlo de la siguiente forma:
A two-way ANOVA was performed to analyze the effect of watering frequency and sunlight exposure on plant growth.
The analysis revealed that there was not a statistically significant interaction between the effects of watering frequency and sunlight exposure (F(2,24 ) = 2.31 , p = .1207, η2= 0.09). Simple main effects analysis showed that watering frequency had a statistically significant effect on plant growth (F(1,24 ) = 16 , p < .001, η2= 0.40). Also simple main effects analysis showed that sunlight exposure had a statistically significant effect on plant growth (F(2,24 ) = 23.31 , p = .1207, η2= 0.66).
En este caso sí que conviene detenernos en comentar los estadísticos de cada efecto como forma de resaltar los valores obtenidos.
Veamos que nos recomienda ChatGPT como plantilla para estos casos, como respuesta a la pregunta "how to report a two factors independent anova in apa style with non significant interaction?"
A two-way independent ANOVA revealed a significant main effect of Factor A, F(df1, df2) = F-value, p = p-value, and a significant main effect of Factor B, F(df1, df2) = F-value, p = p-value. However, the interaction between Factor A and Factor B was not significant, F(df1, df2) = F-value, p = p-value. The effect size for Factor A was η² = effect size, suggesting a [small/medium/large] effect. Similarly, the effect size for Factor B was η² = effect size, indicating a [small/medium/large] effect. Post hoc tests using the Bonferroni correction indicated significant differences between Group 1 and Group 2, t(df) = t-value, p = p-value, but no other significant group differences were observed.
Como ya hemos señalado, en el caso de que en un ANOVA con dos o más factores algún efecto de interacción resulte significativo recomendamos centrarnos en solamente comentar este efecto, aunque existan también efectos simples significativos. En el caso de tres o más factores la recomendación sería centrarnos en la interacción de mayor orden.
Ejemplo de una ANOVA 2x2 con interacción:
Con el fin de determinar si existen diferencias en las preferencias de los consumidores sobre el tipo de comida (perrito vs helado) y el condimento usado (mostaza vs chocolate) se llevó a cabo un análisis de varianza 2 x 2 intergrupo. En dicho análisis solo resultó estadísticamente significativo el efecto de la interacción entre ambos factores (F(1,16)= 193.61, p < 0.001, η2 parcial=0.924).
El hecho de que exista interacción nos indica que los efectos de una VI sobre la VD no es constante, sino que varía en función de los niveles de la (o las) otra VI. Esto nos lleva por tanto a un análisis más detallado, y para poder describir ese efecto tendremos que recurrir a los contrastes post hoc.
Ejemplo comentario análisis post hoc:
Para analizar más a fondo el efecto de la interacción se llevaron a cabo una serie de constrastes post-hoc empleando la corrección de Holm. Los resultados indican que cuando se comen perritos el condimento preferido es la mostaza (M=7.1, DT=0.45) frente a el chocolate (M=1.80, DT=0.45), siendo la diferencia de medias estadísticamente significativa (t(16)=9.06, p < 0.001, d=5.73). Por el contrario, cuando se toma helado el condimento preferido es el chocolate (M=8.60, DT=0.45) frente a la mostaza (M=1.60, DT=0.45), resultando también estadísticamente significativa dicha diferencia (t(16)=10.93, p < 0.001, d=6.91). El efecto de esta interacción se puede apreciar en la gráfica X…
Veamos que nos recomienda ChatGPT como plantilla para estos casos, como respuesta a la pregunta "how to report a two factors independent anova in apa style with only signifcant interaction effect?
A two-way independent ANOVA revealed a significant interaction between Factor A and Factor B, F(df1, df2) = F-value, p = p-value. However, no significant main effects were observed for Factor A, F(df1, df2) = F-value, p = p-value, or Factor B, F(df1, df2) = F-value, p = p-value. Post hoc tests using the Bonferroni correction indicated specific group differences within the interaction, such as a significant difference between Group 1 and Group 2 for the combined effect of Factor A and Factor B, t(df) = t-value, p = p-value. (Include measures of effect size (e.g., eta-squared, partial eta-squared) for the interaction. )
Se llevó a cabo un análisis multivariado de varianza intergrupo 2 x 4 tomando como factores las variables Sexo y Orientación Sexual y como variables dependientes los cuatro factores de la escala EROS (Erotofobia, Erotofilia, Homofobia y Sexo no convencional). La prueba multivariada resultó estadísticamente significativa tanto para el factor Sexo, λ= 0.8081, F(4, 119) = 7.06, p < 0.001, η2 parcial= 0.191 como para el factor Orientación Sexual λ = 0.78, F(12, 315.14) = 2.57, p = 0.003, η2 parcial= 0.089. Por otra parte, no se encontró efecto significativo de la interacción entre las variables independientes, λ = 0.9469 F(12, 315.14) = 0.52 , p = 0.90, η2 parcial= 0.019.
Cuando se analizó el efecto de la variable Sexo sobre sobre cada uno de los factores de la escala EROS únicamente se encontró un efecto significativo del mismo sobre el factor Erotofilia, F(1, 122)=6.17, p = 0.014, η2 parcial= 0.048, siendo la media superior en el grupo de sexo biológico masculino (M=25.171, DT=5.85) frente al grupo de sexo biológico femenino (M=27.50, DT=4.645) .
Con respecto a la variable Orientación Sexual los análisis univariados arrojaron efectos significativos únicamente sobre los factores Erotofilia F(3,122)=7.87, p<0.05, η2 parcial= 0.114 y sobre el factor Homofobia F(3,122)=3.02, p<0.05, η2 parcial= 0.069.
Para determinar si existen diferencias en la VD entre los dos diferentes tratamientos empleados controlando la influencia de la variable Edad se llevó a cabo un análisis de covarianza. La covariante, Edad, mostró una relación estadísticamente significativa con la VD F(1,47)=32.38, p < 0.001. A su vez, se comprobó que el tipo de tratamiento no tiene un efecto estadísticamente significativo sobre la VD después de controlar el efecto de la Edad, F(1,47) = 3,21, p = 0.079, η2=0.04.
De nuevo veamos lo que nos sugiere ChatGPT a la pregunta "how to report a one independent factor ANCOVA in APA style?"
A one-way independent factor analysis of covariance was conducted to examine the effect of [independent variable] on [dependent variable], controlling for the influence of the covariate [covariate]. The analysis revealed a significant effect of [independent variable] on [dependent variable] (F(2, 87) = 5.32, p < 0.01). Bonferroni post hoc tests indicated a significant difference between Group 1 (M = 25.4) and Group 2 (M = 30.2, p = 0.015), but not between Group 1 and Group 3 (M = 28.8, p = 0.327). The effect of [independent variable] accounted for approximately 12% of the variance (η² = 0.12) in [dependent variable] after controlling for the covariate [covariate]. Additionally, the covariate [covariate] was found to be a significant predictor of [dependent variable] (F(1, 87) = 8.76, p = 0.005), indicating that the covariate significantly contributed to the observed differences in the dependent variable. These findings suggest that [provide interpretation].
La comprobación de los supuestos de las pruebas es un asunto que concierne principalmente al investigador, y en base a lo cual decide qué estadístico utiliza y qué corrección debe llevar a cabo, por lo que no es habitual encontrar esta información en los resultados de los artículos que se publican. Y las pocas veces que se reflejan en los informes son para indicar que se incumplía alguno de los supuestos y señalar qué corrección se había empleado a la hora del análisis de datos.
Hay que tener en cuenta que el espacio del que uno dispone al publicar una trabajo en una revista científica es muy limitado. Eso obliga al investigador a priorizar la redacción en los apartados de introducción y conclusiones y a economizar en el apartado de resultados. Así mismo, en la redacción de resultados conviene no perder de vista el objetivo del análisis, que en el caso de las pruebas T y ANOVA no es otro que la comparación de medias, y es conveniente procurar no distraer la atención y confundir al lector con los resultados de la comprobación de los supuestos.
Hay varias estrategias que se pueden usar para economizar palabras en el caso de incumplimiento de alguno de los supuestos, como las siguientes:
a) En una prueba T de grupos independientes, en el caso de no igualdad de las varianzas, basta con señalar que 'se llevó a cabo un ANOVA con la corrección de Welch..'. Por su parte el lector al observar los grados de libertad del contraste y compararlos con n1+n2-2 podrá hacerse una idea del tamaño la desviación de igualdad de las varianzas. A mayor desviación mayor será la diferencia.
b) En una ANOVA de grupos independientes, en el caso de no igualdad de las varianzas, basta con señalar que 'se llevó a cabo un contraste con la corrección de Welch (o cualquier otra)..'. De nuevo, el lector al observar los grados de libertad del contraste y compararlos con los que tendría sin hacer la corrección podrá hacerse una idea del tamaño la desviación de igualdad de las varianzas. A mayor desviación mayor será la diferencia.
c) En una ANOVA Intragrupo, en el caso de no cumplirse el supuesto de esfericidad, basta con señalar que 'se llevó a cabo una prueba ANOVA con la corrección de Greenhouse-Geisser (o Huynh-Feldt)..'. De nuevo, el lector al observar los grados de libertad del contraste y compararlos con los que tendría sin hacer la corrección podrá hacerse una idea del tamaño la desviación de la igualdad de las varianzas de las diferencias (supuesto de esfericidad). A mayor desviación mayor será la diferencia.
En cuanto al incumplimiento de distribución normal de las puntuaciones, basta indicar que para el análisis de los datos (o que ante la desviación de la normalidad de las puntuaciones) se llevó a cabo la prueba no paramétrica U de Mann-Whitney, o Krsukal-Wallis, etc...
Veamos cómo redactar los resultados de la comprobación de los supuestos de este tipo de pruebas:
1. Diseño Intergrupo.
Supuesto de Normalidad. Para comprobar el supuesto de normalidad de la distribución de las puntuaciones se llevó a cabo el test de Shaphiro-Wilks, obteniendo una valor de W= 0.93, p= 0.182, por lo que concluimos que las puntuaciones se ajustan una distribución normal.
Supuesto de Homogeneidad. Para comprobar el supuesto de homogeneidad de las varianzas de la puntuaciones se llevó a cabo el test de Levene, obteniendo una valor de F(5,12)=0.21, p= 0.654, por lo que concluimos que no se incumple dicho supuesto.
2. Diseño Intragrupo.
Supuesto de Esfericidad. Para comprobar el supuesto de esfericidad se llevó a cabo el test de Mauchly, obteniendo una valor de W=0.21, p= 0.720, por lo que concluimos que no se incumple dicho supuesto.
En el caso de incumplimiento de dicho supuesto, se podría redactar del siguiente modo:
Para comprobar el supuesto de esfericidad se llevó a cabo el test de Mauchly, obteniendo una valor de W=XXX, p= 0.001, por lo que concluimos que se incumple dicho supuesto, y procedemos a realizar la corrección Greenhouse-Geisser o Huynh-Feldt (la que proceda).
Para mayor tranquilidad, conviene recordar que tanto las pruebas T como el ANOVA (el modelo lineal general, en definitiva) son bastante robustas al incumplimiento del supuesto de homogeneidad de las varianzas, especialmente en los casos de igual n en las diferentes condiciones. Como regla orientativa se supone que la prueba sigue siendo robusta en el caso de que la mayor de las varianzas no sea más de 4 veces superior a la menor de ellas. (Howell, D. C. (2013).Statistical Methods for Psychology. Belmont, CA: Wadsworth Cengage Learning)., aunque algunos estudios sugieren que puede seguir siendo robusta cuando este cociente llega incluso a 9. (Blanca, M., Alarcón, R., Arnau, J. et al. Effect of variance ratio on ANOVA robustness: Might 1.5 be the limit?. Behav Res 50, 937–962 (2018). https://doi.org/10.3758/s13428-017-0918-2 ).
También se debe tener en cuenta que la significación estadística de la prueba de Levene, como cualquier otro contraste de hipótesis, es sensible al tamaño muestral (https://www.theanalysisfactor.com/the-problem-with-tests-for-statistical-assumptions/). La prueba Fmax de Hartley, por el contrario, está diseñada para tener en cuenta ese efecto del tamaño muestral. Es una prueba muy simple de calcular. Para mayor información remitimos al lector a https://statologos.com/prueba-fmax-hartley/
En cuanto al supuesto de distribución normal de las puntuaciones, se ha comprobado que las pruebas T y ANOVA, en general, y especialmente cuando contamos con tamaños muestrales mayores a 30, no se ven seriamente afectadas por el incumplimiento del mismo. (ver Blanca MJ, Alarcón R, Arnau J, Bono R, Bendayan R. Non-normal data: Is ANOVA still a valid option? Psicothema. 2017 Nov;29(4):552-557. doi: 10.7334/psicothema2016.383. PMID: 29048317) .
En cualquier caso siempre es una 'garantía' que se cumplan los supuestos del ANOVA, y en caso contrario, no está de más llevar a cabo las 'correcciones' pertinentes, aunque a veces estemos un tanto a merced del software con el que estamos trabajando.
A Mann-Whitney U test was conducted to determine whether there is a difference in Math test scores between males and females. The results indicate non-significant difference between groups, [U = 53.00, p = .173]. In conclusion, we fail to reject the null hypothesis and conclude that there is no difference in the Math test score between males and females.
A Kruskal-Wallis Test was conducted to examine the differences on renal dysfunction according to the types of medication taken. No significant differences (Chi square = 3.71, p = .39, df = 6) were found among the five categories of participants (none, ACE inhibitors, ARB, ACE inhibitor and ARB, NSAID, and ACE inhibitor or ARB and NSAID).
Since we had a small sample size, determining the distribution of the variable X was important for choosing an appropriate statistical method. So a Shapiro-Wilk test was performed and showed that the distribution of X departed significantly from normality (W = 0.96, p-value < 0.01).
Este 'Site' pretender recopilar ejemplos de redacción de resultados de los análisis estadísticos más empleados por los alumnos de Psicología. A la hora de redactar unos resultados lo mejor es aprovechar lo que ya está inventado y sabemos que funciona, y por tanto ceñirnos a esos modelos. Basta tan solo con copiar el texto que nos interese y evidentemente cambiar los nombres de las variables y los valores obtenidos. La parte de 'creatividad' mejor dejarla para el apartado de 'Discusión'.
Nos encantaría que nos hicieras llegar cualquier observación, comentario o propuesta que tengas sobre el contenido de este Site. Así mismo son bienvenidos cualquier otro ejemplo que consideres debería ser incluido.
Puedes contactarme en pprieto@ull.edu.es