En una investigación correlacional o explicativa, aplicamos la estadística inferencial para el contraste de las hipótesis.
Vamos a introducirnos poco a poco en la estadística inferencial. Para ello, primero vamos a ver cómo se interpretan, de forma general, los resultados de las pruebas inferenciales; y posteriormente vamos a conocer los tipos de pruebas que debemos utilizar según la naturaleza de nuestras variables.
Los contrastes de hipótesis que se realizan en la estadística inferencial permiten confirmar o desechar diferencias significativas entre los grupos de estudio, es decir, si éstas son suficientes para considerar que las diferencias son relevantes entre los grupos, utilizando para ello la probabilidad.
Los contrastes de hipótesis sirven para asegurar con un X % de confianza que los resultados de nuestra muestra se pueden aplicar a población con mismas características.
Para poder confirmar las hipótesis, se utiliza la probabilidad, de cara a asegurar que los resultados de la muestra son aplicables a la población.
En la estadística inferencial se utiliza un nivel de confianza para expresar si, probabilísticamente, las diferencias entre los grupos de estudio son significativas a un X% de confianza. Los niveles de confianza más utilizados son 90%, 95% y 99%.
El porcentaje restante se considera el nivel de significación o margen de error, que podría ser de 10%, 5% o 1% respectivamente. Este margen de error nos servirá para interpretar los resultados de las pruebas de análisis.
Para ello, las pruebas de análisis nos proporcionan el estadístico de contraste y, además, un p-valor, que debe compararse con el margen de error con el que trabajamos. Comparando de esta forma, el p-valor con el margen de error, podremos saber si las diferencias son significativas o no, y confirmar o rechazar nuestra hipótesis.
Por ejemplo, si trabajamos con un nivel de significación del 95%, nuestro margen de error equivaldría al 5%. Para trabajar con el p-valor tenemos que traducir ese error de porcentaje a número, con lo que tendríamos que comparar si el p-valor es mayor o menor de 0,05.
Veamos cómo aplicar esto a una investigación concreta sobre el pensamiento lógico y la robótica, donde el pensamiento lógico es la variable dependiente, que se desarrollaría en función de si se trabaja con robótica o no, la variable independiente.
La hipótesis 0 sería que el grupo que trabaja con robótica tiene el mismo nivel de pensamiento lógico que el grupo que no trabaja con robótica. Mientras que la hipótesis alternativa o hipótesis 1 sería que el grupo que trabaja con robótica tiene mayor nivel de pensamiento lógico que el grupo que no trabaja con robótica.
Teniendo un nivel de confianza del 95%, tendríamos un error del 5%, que se traduciría en 0,05.
Si el p-valor es mayor que el error, por ejemplo, 0,07; aceptamos la hipótesis nula de igualdad de medias. Si aceptamos la hipótesis nula de igualdad de medias significa que nuestras diferencias no son significativas, por lo que en ese caso la variable independiente no influye en la variable dependiente, es decir, la robótica no mejora el pensamiento lógico.
Sin embargo, si el p-valor es menor que el error, por ejemplo, 0,03; rechazamos la hipótesis nula de igualdad de medias, y aceptamos la hipótesis alternativa de que las medias son diferentes, o que la media de un grupo es mayor o menor que la media del otro grupo. En este caso, se podría afirmar que la robótica mejora el pensamiento lógico.
Existe una excepción a la interpretación de las pruebas a través del p-valor, y se trata del caso en el que se quieran relacionar dos variables cuantitativas. Esta relación, sin saber cómo afecta una variable en la otra, se halla a través de la correlación de Pearson, que nos devuelve un valor entre -1 y 1.
En el caso de que el valor esté cerca de 0, significa que no existe correlación.
En el caso de que el valor sea negativo y esté cerca de -1, significa que la correlación es negativa: esto es que, a mayor valor en una variable, se obtendrá menor valor en otra variable. Por ejemplo, a mayor tiempo de estudio, menor fracaso escolar.
En el caso de que el valor sea positivo y esté cerca de 1, significa que la correlación es positiva: esto es que, a mayor valor en una variable, se obtendrá mayor valor en la otra variable. Por ejemplo, a mayor tiempo de estudio, mayor rendimiento.
Para conocer cómo es la influencia de una variable en otra en las variables cuantitativas, se utiliza una regresión lineal, que me permite establecer una fórmula de regresión para poder predecir los valores de la variable dependiente a partir de los valores de la variable independiente. La fórmula es:
Y = A + B * X
donde la A y la B nos la proporciona el software estadístico. Por tanto, al tener un valor concreto de la variable independiente, que corresponde a X, podemos hallar el valor de Y, que es el valor de la variable dependiente.
Para elegir una prueba adecuada para el contraste de hipótesis, en función de nuestro diseño de investigación, debemos, por una parte, identificar el tipo de datos con los que vamos a trabajar en la variable dependiente: nominales, ordinales, de escala o continuos.
Por otra parte, debemos identificar el número de grupo a comparar, en función del tipo de datos que se establezcan en la variable independiente. Si son nominales dicotómicos, serán dos grupos. Si son nominales politómicos, ordinales o de escala, tendremos más de dos grupos, en función del número de categorías de nuestra variable independiente.
En la tabla vemos un resumen de las pruebas que debemos aplicar en función del tipo de datos de nuestras variables. Nuestra misión es identificar adecuadamente el tipo de datos que tenemos para elegir la prueba correspondiente en nuestro software de análisis de datos, por lo que no vamos a entrar aquí en la explicación teórica de ninguna prueba ni en las fórmulas de aplicación.
El software de análisis se encarga de aplicar todas las fórmulas necesarias y devolvernos los resultados. Por una parte, nos da el estadístico de contraste, y por otra parte, nos proporciona el p-valor, que es el valor que nos va a servir para aceptar o rechazar las hipótesis.
¿Por qué aparece una señal de alerta junto a las variables cuantitativas?
En el caso de tener variables cuantitativas, antes de utilizar las pruebas que proponen en la tabla anterior, debemos tener en cuenta lo que se conoce como bondad de ajuste del modelo. La bondad de ajuste del modelo hace referencia al tipo de distribución de los resultados.
En la imagen de abajo vemos cómo la mayoría de las puntuaciones están en un punto medio, y la distribución del resto de puntuaciones es equitativa hacia ambos sentidos. A esto se le denomina distribución normal, y se dice que su distribución es paramétrica. Llegados a este punto cabe preguntarse:
¿Qué pruebas utilizamos con las variables cuantitativas si la distribución no es paramétrica?
Resulta crucial entender que los estudios con variables nominales y ordinales asumen una distribución no paramétrica, es decir, siempre trabajan con pruebas no paramétricas. Por ello, si en un estudio con variables cuantitativas la distribución no es paramétrica, deberemos categorizar los datos, a través de intervalos, para poder utilizar en este caso una prueba para variables ordinales. Si vemos la tabla anterior, veremos en la parte de abajo cómo las pruebas no paramétricas corresponden con las pruebas para variables ordinales.
Por ejemplo, si nuestra variable es el tiempo de estudio a la semana, es cuantitativa, pero si la distribución no es paramétrica, crearemos varias categorías. Por ejemplo, 4 categorías que serían: menos de 60 minutos, entre 60 y 120 minutos, entre 120 y 240 minutos, más de 240 minutos.
En estudios con variables cuantitativas cuya muestra sea pequeña, esto es, menor de 20 participantes, consideraremos que la distribución no es paramétrica.
El primer supuesto para realizar pruebas paramétricas es la normalidad. Según este supuesto, la muestra se distribuye según la curva de la normal, en la que cada grupo tiene una desviación típica similar desde ambos sentidos de donde se encuentre la media. Para comprobar la normalidad, se deben realizar pruebas de bondad de ajuste, que ahora veremos.
El segundo supuesto es la homocedasticidad. Esto significa que las varianzas de los grupos deben ser iguales, es decir, debe existir una homogeneidad de varianzas. Para comprobarlo, debemos mirar directamente en los resultados que nos proporciona la prueba de contraste de hipótesis, y elegir el estadístico correspondiente en función de si se suponen o no varianzas iguales. Ahora veremos dónde comprobarlo.
Por tanto, mientras que la normalidad se debe comprobar antes de elegir la prueba estadística, y en función de ello, elegiremos una prueba paramétrica o una no paramétrica; la homocedasticidad se comprueba después, una vez realizada la prueba, ya que la prueba nos ofrece dos estadísticos según si se cumple o no este principio.
La normalidad se comprueba realizando una prueba de bondad de ajuste. La elección de la prueba de bondad de ajuste depende del tamaño de la muestra: si tenemos más de 50 sujetos, se realiza la prueba de Kolmogorov-Smirnov; mientras que si tenemos menos de 50 sujetos, se elige la prueba de Shapiro-Wilks.
Estas pruebas se encuentran en los software de análisis de datos, así que con saber qué tipo de prueba debemos elegir, será suficiente, pues la aplicación de las fórmulas correspondientes las realiza el propio software estadístico.
La hipótesis que barajamos sobre la bondad de ajuste del modelo es que, si la muestra proviene de una población normal, las medias serán iguales. Por tanto, si aceptamos la hipótesis nula significa que la distribución es normal y, en ese caso, utilizaremos una prueba paramétrica.
Si por el contrario, rechazamos la hipótesis nula de nuestra prueba de normalidad, significa que la muestra no sigue una distribución normal y, por tanto, debemos utilizar una prueba no paramétrica, que recordemos, se corresponden con las pruebas ordinales, y debemos elegirla según los grupos de la variable independiente.
Para interpretar las pruebas de bondad de ajuste sobre normalidad, el software estadístico nos ofrece una tabla como la de la primera imagen del carrusel de abajo.
Supongamos que en nuestro caso tenemos una muestra menor de 50 participantes, eso significa que debemos fijarnos en la prueba de Shapiro-Wilks. Como dijimos en la introducción a la estadística inferencial, para aceptar o rechazar una hipótesis debemos comparar nuestro nivel de significación o margen de error elegido, con el p-valor que nos ofrece la prueba.
En el caso del ejemplo, si suponemos un nivel de confianza del 95%, nuestro nivel de significación o error sería un 5%, lo que traducido quedaría en un 0,05. Si comparamos el p-valor que ofrece la tabla en la prueba de Shapiro-Wilks con el valor 0,05; sabremos si debemos aceptar o rechazar la hipótesis de distribución normal.
En este caso, aceptamos la hipótesis nula, que significa que las variables siguen una distribución normal porque en ambos casos son cifras mayores a nuestro nivel de significación o error, que recordemos es 0,05.
Además podemos interpretar que la variable resolución de problemas en la medida posterior está al límite de rechazar la hipótesis de que sigue una distribución normal, veamos qué ocurriría si se hubiera dado el caso de que el p-valor fuese, por ejemplo, 0,049; y dudamos de si se distribuye según la curva normal o no.
Otra forma de comprobar la normalidad es el uso de gráficos. Esta forma de comprobar la normalidad debería realizarse como complemento a las pruebas anteriores, en los casos en los que la aceptación o rechazo de la hipótesis esté al límite, como en el caso anterior.
Tenemos varias opciones que nos permiten comprobar la distribución de la muestra destacando los histogramas, como vemos en la segunda imagen del carrusel de abajo, pero también con gráficos de caja, gráficos de probabilidad normal P-P plots, o gráficos de cuantiles normales Q-Q plots. De esta forma podremos comprobar si se ajusta a la normal. En este caso, podemos aceptar que, más o menos, se distribuye con una curva normal.
Hasta aquí hemos visto las pruebas de normalidad, que nos permitirán conocer la distribución de la muestra y elegir entre pruebas paramétricas y no paramétricas para variables cuantitativas.
Ahora pasamos a ver cómo debemos comprobar el segundo supuesto de la distribución paramétrica, como decíamos antes, una vez se haya realizado la prueba estadística elegida.
Esto quiere decir que con la normalidad ya sabremos qué prueba estadística elegir para el contraste de hipótesis, y una vez realizada esa prueba con nuestro software estadístico, debemos atender a la homogeneidad de las varianzas.
Para comprobarlo se utiliza la prueba de Levene, que se realiza de forma automática junto a la prueba estadística. La hipótesis nula en este caso es que las varianzas de los grupos son iguales, y si rechazamos esta hipótesis nula, asumimos que las varianzas son diferentes.
Para saber qué estadístico de contraste debemos elegir entre los dos que se nos ofrece en la prueba estadística, veamos cómo interpretar la homogeneidad, por ejemplo, con la t de Student. Veamos paso a paso cómo interpretar esta prueba fijándonos en la tercera imagen del carrusel de abajo:
En la tabla de resultados aparece para cada variable estudiada dos filas: en la primera se asumen varianzas iguales y en la segunda no se asumen varianzas iguales.
Después, en las siguientes columnas, aparece la prueba de Levene, en la que se nos ofrece el estadístico (F), y el p-valor (Sig.).
En el ejemplo, en la medida posterior, el p-valor para la prueba de Levene es de 0,48, que es superior a 0,05 de nuestro nivel de significación o error. Por tanto, al ser mayor que el nivel de significación, se acepta la hipótesis nula, que corresponde con las varianzas iguales.
En las siguientes columnas, hasta el final, aparece la prueba t de Student. En esta prueba, aparecen dos estadísticos (t), y dos p-valor, el de arriba correspondiente a la asunción de varianzas iguales, y el de abajo correspondiente a la asunción de varianzas diferentes.
En nuestro caso, como hemos aceptado la hipótesis nula de varianzas iguales, debemos fijarnos en el p-valor de arriba, el 0,072.
Aprovechando que tenemos delante la prueba t, podemos ver que nos indica que se debe aceptar la hipótesis nula de igualdad de medias porque el valor de 0,07 es mayor al nivel de significación elegido, por lo que en este caso no habría diferencias entre los grupos en la medida posterior de resolución de problemas.
Como hemos podido ir viendo sobre la estadística inferencial, debemos tener en cuenta muchos aspectos para acertar en la prueba estadística que elegimos.
En resumen, debemos elegir la prueba según la naturaleza de los datos de las variables. La mayoría de las pruebas se consideran no paramétricas, excepto para los datos cuantitativos que se consideran paramétricas. Sin embargo, para utilizar las pruebas paramétricas, debemos asegurarnos de que existe una distribución normal, o de lo contrario, categorizar la variable y trabajar con pruebas no paramétricas para datos ordinales.