Distribución Normal
Distribución Normal
Video Clase
Con Excel
Características de una distribución normal
Su gráfico se parece a una campana simétrica
El valor de la media es cero
En estas distribuciones, la media y la mediana del conjunto de datos coinciden
El valor de la desviación estándar (S) es 1
El área bajo la curva es el 100% de la función de densidad equivalente a una unidad (100%=1)
Este tipo de distribución tiene propiedades que permiten cálculos más precisos aplicables a otras distribuciones con características similares o aproximadas a una normal
la distribución normal se realiza con ja valores cuantitativos continuos, pero también se puede aplicar sus propiedades a datos cuantitativos discretos e incluso dependiendo la cantidad de categorías podría aplicarse a valores numéricos ordinales
Ejemplo
Graficar una distribución normal es hacer un diagrama de dispersión de la función de densidad
Paso 1
Calcule el valor de cada uno de los puntos de f(x) (función de x o puntos del eje Y) con la siguiente fórmula:
Fórmula Excel:
Con esta fórmula encontraremos los valores para cada uno de las ordenadas del eje Y cuya intersección con los puntos del eje X nos da el área de la función de densidad
=DISTR.NORM.N(B11;5;1;0)
Donde:
B11 Es el eje de las abscisas (X) qué contiene los datos de las mediciones
5 Es la media de los datos
1 Es la desviación estándar
0 Indica que no se trata de datos acumulados
Paso 2:
Seleccione ambos conjuntos de datos y realice un gráfico de líneas
Importante
Excel no tiene una prueba como tal, para el cálculo de normalidad de un conjunto de datos, utilizando los estadísticos de Kolmogorov Smirnov y Shapiro Wilk
Práctica
Texto
Vamos a ver la distribución de los datos en forma normal a qué le llamamos una distribución normal en primer lugar se trata de mediciones cuantitativas por ejemplo mediciones de peso mediciones del tamaño en centímetros y milímetros etcétera se representa mediante una función la distribución normal es una función que se puede llamar son funciones estándar encierra todos los posibles eventos es decir que una distribución normal se divide en decimales que se representa también o equivalente a porcentajes y el 100% de estos va a equivaler a 1 una unidad acá tenemos una distribución normal todos los porcentajes de estos sectores por ejemplo como esta parte morada van a ser fracciones de la unidad no esto va a representar 0.2 0.3 etcétera.
En el caso del valor por lo general se aplica un valor del 0.05 y esto equivale a 5 por 100 una distribución normal tiene dos datos que los representa y qué es suficiente para construir una gráfica y es la media y la desviación estándar una distribución normal tiene la media cero a su izquierda números negativos a su derecha números positivos y la desviación estándar, de forma curva que le da a la forma acampanada una unidad, .esto es así la la distribución normal pero sus propiedades le pueden hacer aplicables si hay otras distribuciones que tienen la misma forma acampanada simétrica en ambos lados aunque la media no sea cero y tampoco la desviación estándar sea 1 puede ser que sea 1 puntos y 1 o dos no contar que no se distorsione esta distribución normal la distribución normal aparece en la naturaleza.
Por ejemplo nosotros compramos una caja de manzanas y lo pesamos no esto lo he dicho yo este experimento acá y por lo general está en una media de 150 g hay algunas manzanas que pesan un poquito más pero ellas son cada vez menos no puede haber una grandota pero ya es poco igual hay más pequeñas amiga y eso se va reduciendo de repente habrá una pequeñita pero ya será cada vez menos lo normal se da en la naturaleza que todo se concentra mayormente en torno a la media en torno a la media vamos AA acá a ver este su utilidad porque es se calcula esta esta forma de distribución normal porque permite distinguir los estadísticos paramétricos de los mismo paramétricos los paramétricos tienen ciertas propiedades de la distribución normal que lo hacen digamos más efectivos en su cálculo más potentes versus los no paramétricos donde se utiliza la mediana como para para el cálculo de los estadísticos no entonces para ahora para qué utilizamos el área bajo la curva el área bajo la curva nos permiten calcular el porcentaje de los datos el porcentaje de frecuencias bajo la culpa por sectores no puede ser que yo solamente este sector o quiera estos dos sectores dependiendo a lo que el investigador quiera este encontrar entonces ahora vamos a ver que los estadísticos paramétricos son la t de student r de pearson el Anova son menos si cambian los no paramétricos como laude mangini para variables independientes la T de Spiderman para colorear correlaciones de datos no paramétricos wilcoxon para comparar datos no paramétricos ordinales que estén relacionados Friedman también para datos relacionados con más más de 2 chi cuadrado de ingenuidad Q de cochran y otros más acá tenemos una distribución normal como le como indicamos la media es cero y la desviación estándar de 1 con esto es suficiente para construir la forma acampanada y esto es aplicable en unidades cuantitativas como el peso o la talla la temperatura la edad no acá tenemos cuantitativa está en el eje XY en el eje y eje qué cosa va qué cosas son estas barritas azules esta es la frecuencia no por ejemplo decíamos que las manzanas se concentran más alrededor de 150 g entonces acá está la media y vemos que esta barra es más alta es más alta porque hay más frecuencia no cuanto más grande es la manzana eh las frecuencias van cayendo van cayendo son menos cada vez menos igual las de menor tamaño también son pocos y se va reduciendo esta distribución acampanada entonces es la distribución normal
Para su cálculo puede hacerse mediante un programa estadístico que ahora son bastantes evolucionados o mediante tablas para hacer mediante este es un procedimiento antiguo cuando no se tenía el el SPSO el geogebra que lo vamos a ver más adelante, se dividía la forma acampanada en 8 partes cuatro para el lado izquierdo y cuatro para el lado derecho, entonces como todo es 1 y estos sectores entonces son fracciones de una unidad son decimales estos el cálculo de esta área se realiza mediante esta fórmula pero tenemos las tablas tabla z se denomina donde ya cada sector está con un valor no ya como su fórmula calculada pero ahora yo tengo que traducirlo por ejemplo quiero que allá del área en 1 m o 170 cm entre 170 y 175 cm que debe estar por acá entonces yo tengo que convertir estos 170 al lenguaje zeta porque el lenguaje z , se divide entre 8 yo tengo 170 entonces tengo que dividirlo entre 8 y la fórmula es z es igual a la XO sea desde la media a cual x quiero encontrar a que es el caso sería 175 hasta acá sería entonces en vez de x sería 175 menos la media la media 170 entre la desviación estándar, la desviación estándar la cama indica que es dos entonces sería entre 2 entonces tengo este problema ya redactado y sé de una población de jóvenes universitarios con distribución normal se tiene una talla media de 1 m 70 o 170 cm y una desviación estándar de 2 establecer el porcentaje el porcentaje y a veces el porcentaje de la población que tiene una talla entre un 370 cm y 175 entonces el reemplazo acá x %75 la media por 170 / 2 y me sale 2.5 este valor lo ubico en la tabla en la tabla ZY me voy a obtener el porcentaje que tiene este sector en el programa de SPS .
Las variables tienen distribución normal y para qué queremos saber eso porque dijimos que dependiendo si tiene distribución normal o no vamos a aplicar las estadísticos paramétricos y no paramétricos por ejemplo la t de student no necesito saber si es normal o no porque si no es normal lo las variables entonces puedo aplicar la este u de Mann Whitney por ejem entonces estas medidas paramétricas las voy a determinar con el programa SPS me voy a ir a la ficha a analizar me voy a estadísticos descriptivos y hago la selecciono explorar una vez que selecciono explorar me sale el siguiente el cuatro y voy a pasar a la lista de dependientes las variables que voy a buscar si tienen o no distribución normal ahora en este caso en este caso se trata de datos relacionados pero cuando es independientes o sea estadística este conjunto de datos independientes puede ser que estén unidos por una lista de factores entonces acá vendrá este la variable de agrupación no posteriormente voy AA gráficos es importante este paso si no nos va a salir la el valor de normalidad y acá tengo que desactivar tallos y hojas esto desactiva desactivo ya y voy a activar la gráficos de normalidad con pruebas nada más le doy a aceptar y voy a obtener el cuadro de normalidad obviamente va a haber otros otras tablas con los descriptivos pero acá tengo la la prueba de normalidad y me sale dos estadísticos como resumirlo y shapiro wilk no como movimiento es para 50 o más datos y se piro wii es a menos de 50 datos
Tengo 50 datos en esta en esta en este estadístico entonces voy a aplicar kolmogorov smirnov vemos acá que la variable antes es menor a 0.05 entonces si es menor a 0.05 diremos que hemos probado la hipótesis del investigador que considera que no no es normal no normal Ah y de igual manera en el weeks si fuera menos de 40 los datos también nos sale que no es o no tiene una distribución normal en cuanto a la segunda variable si es mayor entonces esta segunda variable si nos dice que es normal en cambio acá en el shopping week no dice es menor por tanto tampoco sería no normal en nuestro caso estamos en 50 datos y corresponde colaboradores mismo entonces esta esta variable es normal y la otra no es normal por tanto el estadístico aplicable de los dos algunos ser normales los dos sería un estadístico no paramétrico paramétrico bueno vamos a ver esto en un ejemplo en un ejercicio en el en el SPSS acá tenemos dos medidas antes y ddespuesre y post por ejemplo o como le digo vamos a hacer una comparación de student para muestras relacionadas necesitamos calcular previamente si tiene o no una distribución normal nos vamos a estadísticos descriptivos nos vamos a explorar sale el cuadro pasamos las variables a la lista de dependientes porque ahí lo vamos a ver si nos damos cuenta son dos variables que vamos a verificar la normalidad puede ser una no hay problema puede ser dos puede ser 3 pues el cuatro puede ser un cuestionario que tiene 20 preguntas entonces serían 20 variables que vamos a analizar no hay proble simplemente a en gráficos vamos a desactivar de tallos y hojas y vamos a activar gráficos con normalidad como de normalidad con pruebas y vamos a aceptar nos vas a tabla de los descriptivos acá no dice que antes son 20 después son 20 Ah ya los estoy siendo 20 o sea en total son no llegan a 50 no llegan a 50 entonces aplicable estadístico shapiro wilk acá tenemos los datos descriptivos y por último tenemos la la prueba de normalidad, está antes y después entonces como son menos de de 49 menos de 50 lo aplicable es shapiro, entonces siguiendo ese piro with la primera variable el antes es menor a 0.05 entonces no tiene una distribución normal también es menor a 0.05 por tanto los dos no tienen distribución normal solo cuando son mayores a 0.05 sí tienen distribución normal y eso lo podemos ver en la gráfica cuando están alineados los puntos con la línea de proyección tienen distribución urbana en cambio vemos que la curva desalineada a la recta lo que nos indica que no tiene una distribución normal entonces para ubicarnos bien hay dos particularidades dos intenciones de estudio en una normal 1 conocer partes de los sectores dentro de una distribución y el segundo saber si la variable tiene o no distribución normal para seleccionar el estadístico aplicable hemos visto cómo con el SPSS podemos determinar si tiene o no una distribución normal la variable.
Hemos visto por sectores, así encuentra las a sectores de porciones debajo de la curva para determinar la cantidad o el porcentaje de datos que lo vimos con este ejemplo me usando las tablas pero en la actualidad ha evolucionado mucho y tenemos programas como el geogebra que en este caso les presento esto es gratuito o simplemente digite estamos en el buscador geogebra y hacemos clic y se despliega esta ventana en esta ventana tenemos acá el tipo de distribución que queremos acá hay está normal pero yo puedo seleccionar otro tipo de distribución como la t de student chi cuadrado etcétera supongo que tengo acá la distribución normal y acá está la media la moda entonces por ejemplo hemos estado viendo 1,1 media no de 170 cm no y una desviación estándar de 2 de 2 y queríamos saber por ejemplo qué porcentaje está entre 101 m 70 vamos a borrar esto 1 m 70 y 1 m 75, entonces digitamos 175 y le damos a aceptar y ya tenemos el resultado 0.4938 lo que es igual al 49% y eso está acá en la gráfica que tenemos hasta casi la mitad 49.38 está pintado de morado, lo que tenemos es que lo comprendido entre 170 cm y 175 corresponde a un 49.38% de toda el área bajo la curva.