3.1 ESTADISTICA NO PARAMETRICA

ESTADISTICA

NO PARAMETRICA

 

Las técnicas estadísticas de estimación de parámetros, intervalos de confianza y prueba de hipótesis son, en conjunto, denominadas ESTADÍSTICA PARAMÉTRICA y son aplicadas básicamente a variables contínuas. Estas técnicas se basan en especificar una forma de distribución de la variable aleatoria y de los estadísticos derivados de los datos.

 

En ESTADÍSTICA PARAMÉTRICA se asume que la población de la cual la muestra es extraída es NORMAL o aproximadamente normal. Esta propiedad es necesaria para que la prueba de hipótesis sea válida.

 

Sin embargo, en un gran numero de casos no se puede determinar la distribución original ni la distribución de los estadísticos por lo que en realidad no tenemos parámetros a estimar. Tenemos solo distribuciones que comparar. Esto se llama Estadística No Paramétrica.

 

 

 

Las principales pruebas no paramétricas son las siguientes:

    Prueba χ² de Pearson

    Prueba binomial

    Prueba de Anderson-Darling

    Prueba de Cochran

    Prueba de Cohen kappa

    Prueba de Fisher

    Prueba de Friedman

    Prueba de Kendall

    Prueba de Kolmogórov-Smirnov

    Prueba de Kruskal-Wallis

    Prueba de Kuiper

    Prueba de Mann-Whitney o prueba de Wilcoxon

    Prueba de McNemar

    Prueba de la mediana

    Prueba de Siegel-Tukey

    Prueba de los signos

    Coeficiente de correlación de Spearman

    Tablas de contingencia

    Prueba de Wald-Wolfowitz

    Prueba de los rangos con signo de Wilcoxon

 

La mayoría de estos test estadísticos están programados en los paquetes estadísticos más frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay que decir que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables. Esto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la investigación sin verificar si se cumplen las hipótesis y condiciones necesarias pues, si se violan, invalidan cualquier resultado posterior y son una de las causas más frecuentes de que un estudio sea estadísticamente incorrecto. Esto ocurre sobre todo cuando el investigador desconoce la naturaleza interna de los test y se limita a aplicarlos sistemáticamente.

Es importante mencionar que si la distribución de los datos se ajusta a un tipo de distribución conocida, existen otras [pruebas] que, en la práctica, son más aconsejables pero que así mismo requieren otros supuestos. En este caso, la estadística a emplear es la estadística paramétrica, dentro de la cual muchas veces podemos encontrar equivalencias entre pruebas pero con diferencias en la potencia entre ambas siendo siempre la potencia de las pruebas no paramétricas menor que la potencia de las pruebas paramétricas equivalentes. Aun así, el uso adecuado de los tamaños muestrales disminuye la posibilidad de cometer un [error tipo II], puesto que aumenta al mismo tiempo la eficacia de la prueba . Es decir, a medida que se aumenta el tamaño de la muestra, disminuye la posibilidad de cometer un error tipo II (un falso negativo: No rechazar la hipótesis nula cuando ésta en realidad es falsa).

 

 La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea, como mínimo, de intervalo.

La prueba de los signos es quizá la prueba no paramétrica mas antigua. En ella está, basadas muchas otras. Se utiliza para contrastar hipótesis sobre el parámetro de centralización y es usado fundamentalmente en el análisis de comparación de datos pareados. Consideremos una muestra aleatoria de tamaño n tal que sus observaciones estén o puedan estar clasificadas en dos categorías: 0 y 1, + y -, ... etc.

 

Podemos establecer hipótesis acerca de la mediana, los centiles, cuartiles, etc. Sabemos que la mediana deja por encima de sí tantos valores como por debajo; Considerando que Xi - Mdn > 0 , darán signos positivos (+) y Xi - Mdn < 0 signos negativos (-) , en la población original tendremos tantos (+) como (-). Se tratara de ver hasta que punto el numero de signos (+) esta dentro de lo que cabe esperar que ocurra por azar si el valor propuesto como mediana es verdadero. Lo mismo se puede decir respecto a los cuartiles, centiles, o deciles.

 

Teniendo en cuenta que se trabaja con dos clases de valores, los que están por encima y los que están por debajo, es decir, los (+) y los (-) , los estadísiticos de contraste seguirán la distribución binomial, si se supone independencia y constancia de probabilidad en el muestreo.

 

La mejor forma de entender este apartado es mediante un ejemplo practico; De modo que en la tabla que pondremos a continuación se pueden ver los resultados de un experimento sobre comparación de sabores. Un fabricante de alubias esta considerando una nueva receta para la salsa utilizada en su producto. Eligio una muestra aleatoria de ocho individuos y a cada uno de ellos le pedio que valorara en una escala de 1 a 10 el sabor del producto original y el nuevo producto. Los resultados se muestran en la tabla, donde también aparecen las diferencias en las valoraciones para cada sabor y los signos de estas diferencias. Es decir, tendremos un signo + cuando el producto preferido sea el original, un signo - cuando el preferido sea el nuevo producto y un 0 si los dos productos son valorados por igual. En particular en este experimento, dos individuos han preferido el producto original y cinco el nuevo; Uno los valoro con la misma puntuación.

 

La hipótesis nula es que ninguno de los dos productos es preferido sobre el otro. Comparamos las valoraciones que indican la preferencia por cada producto, descartando aquellos casos en los que los dos productos fueron valorados con la misma puntuación. Así el tamaño muestral efectivo se reduce a siete, y la única información muestral en que se basara nuestro contraste será la de los dos individuos de los siete que prefirieron el producto original.

Comments