2 BACH-CCSS
BLOQUE DE ESTADÍSTICA
2 BACH-CCSS
BLOQUE DE ESTADÍSTICA
En esta página encontrarás todo el material resumido de preparación para el bloque de estadística.
En este último bloque de contenidos de la materia de Matemáticas Aplicadas a las Ciencias Sociales vamos a trabajar problemas y ejercicios que podríamos clasificar en varios apartados, siguiendo la denominación de vuestro libro de texto (Anaya):
Conceptos previos
Teoría de muestras (tema 11)
Distribuciones de probabilidad ( temas 12)
Distribución Normal (tema 12)
Distribución Binomial (tema 13)
Tipps para afrontar la resolución de problemas EvAU
Estadística: La estadística es una rama de las matemáticas que te permite recopilar, organizar y analizar datos según la necesidad que tengas, por ejemplo: obtener un resultado, comparar información, tomar mejores decisiones, entre muchas cosas más.
¿Qué es la estadística y para qué sirve?
Tipos de estadística
Hay dos tipos de estadística: la descriptiva y la inferencial.
Estadística descriptiva: te ayuda a organizar una gran cantidad de datos a través de métodos, tablas y gráficos que te permiten presentar los resultados de forma ordenada. En este curso te mostramos algunas de estas herramientas.
La estadística inferencial: se encarga de realizar conclusiones y deducciones a partir de una muestra de datos. Es útil cuando necesitas tomar decisiones o establecer cuál es la tendencia en un grupo de información.
Por ejemplo: si quieres saber cuál es el salario promedio de los pilotos de tu país deberías encuestarlos a todos, pero te tomaría mucho tiempo. Lo que haces es reunir las respuestas de solo un grupo de pilotos y, según los resultados, deducir la cifra promedio.
Las variables estadísticas son características o cualidades de una persona, animal u objeto, las cuales puedes medir. Por ejemplo: la edad, la estatura, el peso o la altura de un edificio.
Las variables pueden ser de dos tipos:
Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:
Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc., pero, por ejemplo, nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.
Parámetros o medidas estadísticas
Son medidas (valores) que informan sobre la característica o propiedades de un serie de datos, resumiendo la información que nos dan todos los datos del estudio estadístico.
Hay de dos tipos, las medidas de centralización (nos dan información sobre el valor central de la distribución estadística), la más habitual es la media aritmética y las medidas de dispersión (nos dan información de como los valores de la distribución estadística se alejan del centro de la distribución), la más habitual es la desviación típica.
Medidas de centralización
La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos:
Medidas de dispersión
Estudian la distribución de los valores de la variable, analizando si éstos se encuentran más o menos concentrados, o más o menos dispersos.
La más habitual es la varianza.
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.
La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.
El problema de la varianza es que no viene expresada en las mismas unidades de la variable, sino en cuadrados, lo cual no tiene mucho sentido.
Para solucionarlo, se define la desviación típica como la raíz cuadrada positiva de la desviación típica.
RESUMEN DE FÓRMULAS ELEMENTALES DE ESTADÍSTICA
EL PAPEL DE LAS MUESTRAS
Población o universo es el conjunto de todos los individuos objeto de nuestro estudio.
Muestra es un subconjunto extraído de la población. Su estudio sirve para inferir características de toda la población.
¿CÓMO DEBEN SER LAS MUESTRAS?
Hay dos aspectos de las muestras a los que deberemos prestar mucha atención: su tamaño y cómo se realiza la selección de los individuos que la forman.
Respecto al tamaño, es claro que si la muestra es demasiado pequeña, no podremos obtener de ella ninguna conclusión que merezca la pena.
MUESTREO
La elección de la muestra se llama muestreo. Si la muestra está mal elegida (no es representativa) se producen errores adicionales imprevistos e incontrolables (sesgos). Veamos a continuación cómo debe realizarse el muestreo para que nos proporcione muestras representativas.
MUESTREO ALEATORIO
Se dice que un muestreo es aleatorio cuando los componentes de la muestra se eligen al azar, de modo que todos los individuos de la población tienen, a priori, la misma probabilidad de ser elegidos.
TIPOS DE MUESTREO ALEATORIO
MUESTREO ALEATORIO SIMPLE (MAS)
Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los n elementos que debe contener la muestra. Si los individuos son, por ejemplo, los tornillos contenidos en una caja, para obtener la muestra basta tomar n de ellos por simple extracción.
MUESTREO ALEATORIO SISTEMÁTICO
Se numeran los individuos y, a partir de uno de ellos elegido al azar, se toman los siguientes mediante «saltos» numéricos iguales. Por ejemplo, si el primero es el 5.° y el «salto» es de 13, se elegirán 5.°, 18.°, 31.°, 44.°…
El «salto» se llama coeficiente de elevación, h, y se obtiene mediante el cociente entero entre el número de individuos de la población, N, y el número de individuos de la muestra, n: h = N/n .
El primer elemento, llamado origen, se elige al azar entre los números 1, 2, 3, …, h.
Una vez numerados los N individuos de la población y sabiendo que la muestra ha de ser de tamaño n, el proceso que se sigue es:
— Se calcula el coeficiente de elevación, h, dividiendo N entre n.
— Se averigua el primer elemento de la muestra, origen, a1, obteniéndolo aleatoriamente de entre los h primeros.
— Se obtienen los restantes elementos de la muestra: a2 = a1 + h, a3 = a2 + h, a4 = a3 + h, …
EJEMPLO
a) Se sortean 100 números de entre los 1 300. La muestra estará formada por los 100 alumnos a los que correspondan esos números.
b) Coeficiente de elevación: h = = 13
— Se sortea un número del 1 al 13. Supongamos que sale el 5.
— Los alumnos seleccionados para la muestra son los que corresponden a los números 5, 18, 31, 44, 57, …, 1 292.
MUESTREO ALEATORIO ESTRATIFICADO
Si la población puede dividirse en estratos relacionados con la variable que se está estudiando (por ejemplo, por edades: menores de 18 años; de 18 a 50; más de 50), a veces conviene elegir la muestra fijando de antemano el número de individuos de cada estrato.
La determinación del número de elementos que ha de tener de cada estrato se denomina afijación de la muestra. No siempre se conoce la distribución de individuos en los estratos (ni siquiera aproximadamente). En tal caso, se forma la muestra tomando el mismo número de individuos de cada estrato. A este proceder se le llama afijación simple.
Cuando estos números son proporcionales a los tamaños de los estratos en la población, se dice que el muestreo es estratificado con reparto proporcional.
En cada estrato, los ni individuos de la muestra se eligen aleatoriamente.
El muestreo estratificado es el más utilizado en la práctica. Se recurre a él cuando se supone que la pertenencia a uno u otro estrato influye en la variable que estamos analizando. Por ejemplo:
— Se puede suponer que los alumnos de cursos superiores estudian más que los demás.
— La edad influye en las opiniones sobre aspectos sociológicos.
— La pertenencia a una u otra comunidad autónoma puede influir en la renta per cápita, en la tasa de paro, en el precio de la vivienda…
EJEMPLO
426 de 1.º
359 de 2.º
267 de 3.º
133 de 4.º
115 de 5.º
4. TÉCNICAS PARA OBTENER UNA MUESTRA ALEATORIA DE UNA POBLACIÓN FINITA.
Para obtener una muestra aleatoria se «sortean» los individuos de la población para decidir al azar cuáles de ellos forman parte de la muestra. El «sorteo» puede realizarse de diversas formas:
ELECCIÓN MEDIANTE EXTRACCIÓN
Esta operación puede realizarse de dos formas distintas:
— Sin reemplazamiento: se eligen simultáneamente, o bien una a una, las n papeletas de la muestra.
— Con reemplazamiento: se eligen una a una n papeletas pero, después de cada extracción, la papeleta elegida (y anotada) se devuelve a la caja.
ELECCIÓN MEDIANTE NÚMEROS ALEATORIOS
Las calculadoras tienen una tecla , que se llama generadora de números aleatorios, con la cual se obtiene al azar un número decimal comprendido entre 0,000 y 0,999.
— Si se obtiene la muestra por insaculación (extracción de papeletas), debe realizarse sin reemplazamiento.
— Si se recurre a los números aleatorios, se consigue una muestra como si fuera con reemplazamiento. Puede haber elementos repetidos que deben suprimirse y ser sustituidos por otros, elegidos del mismo modo.
5. MUESTRAS Y ESTIMADORES.
Se recurre a una muestra para inferir algunos aspectos de la población. En concreto se tratará de estimar (valorar aproximadamente) uno o más parámetros de la población a partir de parámetros de la muestra.
QUÉ ES UN ESTIMADOR
Para inferir el valor de la media, μ, de la población lo lógico es recurrir a la media, x̅ , de la muestra. Diremos que x̅ es un estimador de μ.
λ es un parámetro de la población. Decimos que λ̅ es un estimador suyo si es un parámetro obtenido a partir de una muestra y cuyo fin es asignar un valor aproximado a λ.
PROPIEDADES DE LOS ESTIMADORES
Consideremos todas las posibles muestras de tamaño n. En cada una de ellas λ̅ toma un valor. El promedio de esos valores se designa E [λ̅] (la esperanza matemática de λ̅, «lo que se espera», es el promedio de los posibles valores).
Se dice que λ̅ es un estimador centrado o insesgado de λ si E [λ̅] = λ.
λ̅ es eficiente si la varianza de sus posibles valores, V ( λ̅), es pequeña. Es decir, un estimador, λ̅ 1, es más eficiente que otro, λ̅2, si V ( λ̅ 1) < V ( λ̅ 2).
¿Por qué es bueno que sea eficiente? No olvidemos que en la práctica solo extraeremos una muestra. Si V ( λ̅) es grande, el valor concreto obtenido para λ̅ es probable que esté muy alejado de λ. Es decir, lo estimará mal.
λ̅ es consistente, tanto mejor cuanto mayor sea el tamaño de la muestra. Más aún, debe cumplir que λ̅ → λ cuando n → N.
En definitiva, un estimador debe ser insesgado, consistente y lo más eficiente posible.
EJEMPLOS
a) Un fabricante de tornillos, para realizar un control de calidad, recoge uno de cada 100 tornillos fabricados en un día y los somete a diversas pruebas.
La población es el conjunto de todos los tornillos fabricados por la máquina. El fabricante escoge una muestra.
b) En unos grandes almacenes, para indagar sobre la eficacia de una dependienta recién contratada, se pregunta a todos los clientes atendidos por ella durante su primer día de trabajo.
Puesto que se les pregunta a todos los clientes atendidos por ella, es una población.
c) En otros grandes almacenes, para indagar sobre la eficacia de los dependientes, se pregunta a todos los clientes que salen por una de las puertas durante un día.
Es una muestra: se trata de una parte de los clientes atendidos ese día.
d) En unas elecciones locales se escrutan las papeletas.
En las elecciones, referéndums, etc., siempre se recurre a la totalidad de la población (individuos censados y con derecho a voto por tener la edad mínima exigida).
e) En una librería he ojeado algunas páginas de un cómic que tiene buena pinta para saber si me va a gustar.
Es una muestra, ya que la población sería leer el cómic entero.
a) En un almacén hay 4200 vasos de vidrio. Se quiere estudiar su resistencia a la rotura. Para hacerlo, se les somete a presiones crecientes hasta que se parten.
Puesto que el proceso de medición es destructivo, es imprescindible recurrir a una muestra y, además, tan pequeña como sea posible (pero procurando que se puedan extraer de su estudio conclusiones fiables).
b) Para estudiar el tiempo de reacción de ciertas sustancias, se las hace reaccionar en 25 ocasiones, tomando medidas en cada una de ellas.
En esta, como en otras experiencias, se supone que si se controlan todas las variables (cantidades de las sustancias que intervienen en la reacción, pureza de las mismas, presión, temperatura…), el resultado sería siempre el mismo. Sin embargo, el control de las variables no es perfecto. Por tanto, cada experimento puede dar lugar a un resultado distinto (supuestamente serán muy parecidos a otros). La población es infinita, pues se compone de todos los experimentos que se podrían realizar. Naturalmente, hemos de recurrir a una muestra.
c) Un profesor, para ver si sus explicaciones han sido entendidas por sus alumnos y alumnas, realiza varias preguntas entre ellos.
Las preguntas que realiza el profesor en clase son una muestra que sirve para tantear lo que saben los estudiantes. Incluso de los exámenes solo se extrae una muestra de sus conocimientos, ya que sería imposible preguntárselo todo.
d) Un grupo de biólogos quiere realizar medidas de las longitudes de las pinzas de los cangrejos blancos de Lanzarote.
Como el procedimiento es difícil de llevar a cabo e invasivo con los animales de esta especie, se toma una muestra lo más pequeña posible pero suficientemente grande para que sea significativa.
El censo electoral de una población consta de 27 800 electores. Deseamos extraer una muestra de 200 individuos.
a) ¿Cómo se debe realizar mediante muestreo aleatorio sistemático?
b) ¿Cómo se debe realizar mediante muestreo aleatorio simple?
Utiliza la función RANDOM de la calculadora.
a) Muestreo aleatorio sistemático
Coeficiente de elevación: h = 27800/200 = 139
Esto significa que hemos de seleccionar un individuo de cada 139. Para averiguar por cuál empezamos, elegimos al azar un número de 1 a 139. Puede realizarse mediante la función Ramdon de una calculadora:
139 x Shift · (Random) +1= , y nos quedamos con la parte entera.
El primer elemento será el 87 de la lista.
Y los siguientes serán: 87 + 139 = 226, 226 + 139 = 365, …
b) Muestreo aleatorio simple
La secuencia 27 800 x Shift · (Random) +1= nos proporciona un individuo al azar del colectivo inicial. Para seleccionar los 200 elementos de la muestra, después de la secuencia hay que pulsar 199 veces más la tecla = . Si aparece algún número repetido, se suprime y se obtiene otro en su lugar.
Los números aleatorios deben ser obtenidos con ordenador, para que tengan, al menos, cinco cifras decimales.
De la población anterior sabemos que el 20 % tienen entre 18 y 25 años; el 35 %, entre 26 y 40, y el 45 %, más de 40.
¿Cómo se extraería una muestra de 200 individuos con reparto proporcional?
20% de 200 = 40
35% de 200 = 70
45% de 200 = 90
Se elegirán al azar 40 individuos de entre los que tienen de 18 a 25 años; 70 de 26 a 40 años y 90 de más de 40 años.
Para ello, en el censo deberán figurar las edades de los individuos.
Una distribución de probabilidad es un modelo trico que trata de explicar el comportamiento de un fenómeno real.
La variable aleatoria asocia a cada suceso del espacio muestral un número real. Puede ser discreta o continua. Se llama discreta cuando solo puede tomar ciertos valores aislados. Es continua cuando puede tomar todos los valores de un intervalo.
→ Un caso particularmente importante de distribución discreta es la llamada binomial.
→ La distribución continua más utilizada es la normal.
Ejemplos:
a) El número de veces que hay que lanzar uno de esos dados hasta que salga el número 6 es una variable aleatoria discreta
b) El tiempo que una persona tiene que esperar al autobús es una variable continua.
c) La suma de los resultados obtenidos al lanzar dos dados es una variable aleatoria discreta.
d) El número de veces que hay que lanzar uno de esos dados hasta que salga el número 6 es también discreta.
e) El tiempo que una persona tiene que esperar al autobús es una variable continua. Igualmente, la estatura de esa persona o su peso son variables continuas.
La variable aleatoria asocia a cada suceso del espacio muestral un número real. Así, por ejemplo, en el experimento consistente en lanzar dos dados numerados del 1 al 6 y hallar su suma (X), la variable X puede tomar cualquier valor entero entre 2 y 12.
Las probabilidades de esos valores pueden calcularse mediante la regla de Laplace, teniendo en cuenta que los casos posibles son 36 y que los casos favorables se contabilizan en las diagonales de la tabla de sumas adjunta.
Por ello, la distribución de probabilidad de X se resume en la siguiente tabla:
Función de probabilidad
Una distribución de probabilidad queda determinada a partir de su función de probabilidad (llamada función de densidad, en el caso de las distribuciones continuas), que asigna a cada uno de los valores de la variable aleatoria su probabilidad: f (xi ) = P(X = xi )= pi
Función de distribución
A partir de la distribución de probabilidad de la variable X se define la función de distribución,
F(x), de dicha variable como sigue: F(x) = P(X ≤ x) → F(x) acumula probabilidades.
DISTRIBUCIONES DE PROBABILIDAD CON VARIABLES DISCRETAS
Función de probabilidad
Es la que asigna a cada uno de los valores de la variable aleatoria discreta su probabilidad correspondiente.
Puede definirse como sigue:
f ( xi ) = P ( X = xi ) = pi .
Al tratarse de de una función de probabilidad debe cumplir que: 0≤f(xi)≤1.
∑pi = 1 → la suma de las probabilidades de todos los sucesos es igual a 1.
Si x no es alguno de los valores de la variable aleatoria, f(x)=0
Función de distribución
A partir de la distribución de probabilidad de la variable X se define la función de distribución, F(x), de dicha variable como sigue:
F(x) = P(X≤x)
A cada valor x, F(x) le asigna la probabilidad de que la variable aleatoria tome valores menores o iguales que x. La función F(x) acumula probabilidades: F(x) = ∑ f (xi )
Por tanto, si se conoce la función de distribución de una variable aleatoria, es posible determinar la probabilidad de que tome uno de sus valores, pues:
P ( X = xi ) = F ( xi ) − F ( xi −1 )
Igualmente: P(X>xi)=1−F(xi)
Media y varianza de una distribución de probabilidad discreta
Los parámetros estadísticos más usuales se calculan como sigue.
→ La media de una distribución es un valor central que indica la cantidad que correspondería a cada suceso en una repartición igualitaria.
Si una variable aleatoria toma los valores x1, x2, ..., xn, con probabilidades p1, p2, ..., pn, la media, que suele denotarse por la letra griega (mu), se calcula mediante la expresión:
DISTRIBUCIONES DE PROBABILIDAD CON VARIABLES CONTINUAS
Una variable estadística se llama continua cuando puede tomar todos los valores de un intervalo. Así, por ejemplo, son variables estadísticas continuas, las estaturas y pesos de los individuos, los tiempos de espera de un autobús, el tamaño de una determinada variedad de manzanas, etc.
Para estas distribuciones, la probabilidad de un valor concreto es 0, pues el número de casos posibles es infinito. Por ejemplo, la probabilidad de que una persona mida exactamente 172,12345678910... cm es 0; altura tan improbable como que mida exactamente 172,000...cm. En cambio, la probabilidad de que una persona mida entre 171,5 cm y 172,5 cm sí podrá calcularse.
Esto es, si X es la variable que mide la estatura de una persona, se tendrá:
P (X =172,12345...)=0 y P(X =172,000...)=0.
En cambio, P (171, 5< X < 172, 5) = ? , valor que dependerá de la población de estudio.
Función de probabilidad o función de densidad de una variable continua
Función de distribución de una variable continua
La función de distribución, F(x), asigna a cada valor x la probabilidad de que la variable X tome valores menores o iguales que x. Se define como sigue:
Media y varianza de una variable continua
Si una distribución de variable continua X tiene función de densidad f(x),su media y varianza se determinan como sigue:
Es una distribución de probabilidad continua, asociada (teóricamente) a multitud de fenómenos naturales y cotidianos (cociente intelectual, talla o peso de las personas; tamaño de los frutos de cualquier tipo de árbol...), que se caracterizan porque la mayoría de los resultados tienden a agruparse en torno a su media.
Una variable con distribución normal queda totalmente definida por su media μ y por su desviación típica σ . Se denota como N(μ ,σ ).
¿Qué es la distribución normal? Vídeo Píldoras Matemáticas
Distribución normal de media 0 y desviación típica 1: N(0, 1)
El comportamiento estadístico normal hace que puedan asignarse valores de probabilidad a cualquier suceso de la variable estudiada. Esto es, se puede saber (pues está tabulado) la probabilidad de que la variable tome valores comprendidos entre los extremos de un intervalo dado.
Lo que está tabulado es la función de distribución en el caso de la curva normal de media μ = 0 y desviación típica σ= 1, la normal N(0, 1).
Cálculo del valor de Z a partir de su probabilidad asociada
Otros ejemplos del uso de la tabla N(0,1):
Ejemplos (Píldoras matemáticas)
Ejercicios (Píldoras matemáticas)
Cálculo de probabilidades en una Normal Tipificada
La distribución N(0,1) que se representa por 𝑍, se encuentra tabulada, lo cual permite un cálculo rápido de las probabilidades asociadas a la misma.
Aunque existe muchos fenómenos que se comporten como una distribución normal, se puede afirmar que ninguno de ellos se comporta exactamente como una N(0,1). Las distribuciones normales con las que se trabaja en la práctica no son la estándar.
Lo más aconsejable sería transformar la variable x que sigue una distribución N(𝜇,𝜎) en otra variable Z que siga una distribución N(0,1) . Esta transformación se conoce con el nombre de tipificación de la variable y consiste en:
Centrar : consiste en trasladar la media de la distribución al origen de coordenadas. Esto equivale a hacer 𝜇 =0
Reducir: la desviación estándar a 1 (𝜎=1). Esto equivale a dilatar o contraer la gráfica de la distribución para que coincida con la ley estándar:
Z = (𝑿−𝝁)/ 𝝈
Tipificación (Píldoras Matemáticas)
INFERENCIA
La inferencia estadística induce las características de la población utilizando las de los parámetros obtenidos empíricamente para la muestra. Una vez seleccionada la muestra por cualquiera de los métodos anteriormente descritos, podemos obtener de ella los estadísticos media y proporción. Los parámetros de la población se pueden estimar a partir de los de la muestra, estimándose la media poblacional a partir de la media de la muestra y la porporción de la población a partir de la proporción muestral. Los parámetros de la población así obtenidos no pueden tener certeza absoluta. Cuando realizamos una inferencia de los parámetros, el error de la estimación es la diferencia entre el parámetro real de la población y el parámetro inferido.
Podemos realizar la estimación mediante:
Estimación puntual: obteniendo un único valor de un parámetro pobacional estimado a partir de las observaciones muestrales.
Estimación por intervalos: obteniendo los extremos del intervalo en la recta real en el que con cierta probabilidad se situará el parámetro poblacional.
Definiciones:
Intervalo de confianza, es el intervalo de la recta real en el que consideramos con determinada certeza que se encuentra el parámetro poblacional.
Nivel de confianza, es la probabilidad de que el verdadero valor del parámetro estimado se encuentre en dicho intervalo. El nivel de confianza se indica por 1-⍺ con 0<⍺<1 (1 es la probabilidad total, área bajo la curva de la distribución normal).
Nivel de significación ⍺, es el riesgo de que el verdadero valor del parámetro estimado no se encuentre en el intervalo de confianza.
Intervalos característicos
Los intervalos característicos de una distribución normal X, son intervalos cuyos extremos equidistan de la media y cuya probabilidad es una cantidad determinada p=1-⍺, generalmente 0,9; 0,95 y 0,99.
Si la variable x tiene una distribución de media 𝜇 , se llama intervalo característico correspondiente a una probabilidad p a un intervalo centrado en la media, (𝜇-k,𝜇+k), tal que la probabilidad de que x pertenerz a dicho intervalo es p:
P[𝜇-k<x<𝜇+k]=p=1-⍺
Principales intervalos característicos en N(0,1)
Con mucha frecuencia usamos intervalos característicos de distribuciones normales y, en concreto, de distribuciones N(0,1)
Para ello buscamos el valor de Z⍺/2 tal que P(-Z⍺/2<Z<Z⍺/2)= 1- ⍺
El valor Z⍺/2 recibe el nombre de valor crítico correspondiente a 1- ⍺
Teniendo en cuenta lo anterior y si X sigue una distribución N(𝜇,𝜎), al tipificar Z = (𝑿−𝝁)/ 𝝈, entonces el intervalo correspondiente a un nivel de confianza 1- ⍺, es: (𝝁-Z⍺/2 · 𝝈, 𝝁+Z⍺/2 · 𝝈)
Intervalos característicos (Píldoras matemáticas)
Ejercicio Intervalos características (Mates con Andrés)
Ejercicios de inferencia (Píldoras matemáticas)
DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES
Teorema Central del Límite
Dada una población de media 𝝁 y desviación típica 𝝈, no necesariamente normal, la distribución de las medias de las muestras de tamaño n:
Tiene la misma media, 𝝁, que la población
Su desviación típica es 𝝈/√n y, por consiguiente, disminuye al aumentar n
Cuando n ≥ 30 es prácticamente normal
Distribución de las medias muestrales
Valores de probabilidad en las muestras
Que las medias muestrales se distribuyan normalmente permite determinar los v alores de probabilidad de cualquier media elegida por métodos aleatorios de una población normal. Basta con tipificar dichos valores y usar la N(0, 1).
Ejemplo:
Supongamos que la altura de una determinada raza de ovejas se distribuye normalmente con media 80 cm y desviación típica 12 cm: N(80, 12). Para esa raza de ovejas se pueden obtener los valores de probabilidad es los siguientes casos:
a) De que una oveja elegida al azar mida más de 83 cm de alta.
b) De que la altura media de una muestra aleatoria de 36 ovejas supere los 83 cm.
c) De que la altura media de una muestra de 100 ovejas supere los 83 cm.
Comentarios:
1. Observa que no sería extraño encontrar una oveja con altura superior a 83 cm, pero es muy improbable que la altura media de 100 ovejas, elegidas aleatoriamente, supere los 83 cm.
2. Si una muestra está bien realizada y tiene el tamaño suficiente, su media estará muy próxima a la media real de la población de partida. Este es el fundamento de la inferencia estadística, lo que da consistencia a sus resultados; aunque una muestra solo proporciona la seguridad puntual de su media o de de su desviación típica. (En el apartado siguiente se concretará un poco más).
3. Lo importante es que las medias muestrales tienen un comportamiento que se ajusta a una normal: se distribuyen normalmente.
4. La distribución de las medias muestrales es normal incluso en el caso de que estas procedan de poblaciones no normales, siempre que el tamaño de la muestra sea grande (n ≥ 30).
5. El fundamento matemático de lo dicho forma parte del teorema central del límite.
Intervalo de confianza para la media de la población
La media, ⴳ, de los elementos de una muestra es una estimación puntual de la media, 𝝁, de la población de partida. Esto significa que la media real está próxima a ⴳ; pero: ¿cuánto de próxima?, y ¿qué seguridad se tiene de que sea así?
Por eso la estimación no se hace solo en términos puntuales, dando ⴳ , si no definiendo un intervalo alrededor de la media muestral e indicando la probabilidad que se tiene de sea realmente así.
Ese intervalo se llama de intervalo de confianza. A la probabilidad de que tal estimación sea cierta se la llama nivel de confianza.
Intervalo de confianza para la media
Error Admitido
Tamaño muestral
DISTRIBUCIÓN DE LA PROPORCIÓN DE LAS MUESTRAS
Intervalo de confianza para la proporción de las muestras
Error admitido
Tamaño muestral
Es una de las distribuciones de probabilidad más utilizadas en la práctica estadística. Se emplea cuando el fenómeno de estudio queda determinado por dos sucesos complementarios: si/no; hombre/mujer; nacional/extranjero; trabajador en activo/parado; ... En general, esas dos situaciones pueden considerarse resultados de un experimento aleatorio y a los sucesos contrarios, sin que indique valoración alguna, suelen llamárseles éxito y fracaso.
Las características básicas de una distribución binomial son:
Cada prueba del experimento aleatorio presenta dos únicas opciones, que puede designarse como éxito (E) y fracaso (F).
Se realizan n ensayos del experimento, independientes unos de otros e idénticos.
La probabilidad de éxito es constante a lo largo de las n pruebas: P(E)= p
La probabilidad de fracaso también es constante: P(F)=q=1−p
→ Una distribución de estas características también recibe el nombre de pruebas de Bernoulli.
La variable aleatoria X, cuenta el número r de éxitos en las n pruebas: r = 0, 1, ..., n. Por tanto, los valores que puede tomar X son: 0, 1, 2, ..., n.
La distribución binomial queda determinada por los parámetros n y p (número de veces que se realiza el experimento y probabilidad de éxito en cada prueba).
Se indica simbólicamente por B(n, p)
Ejemplos:
a) La variable que cuenta el número de caras obtenidas al lanzar 8 monedas es una binomial de parámetros n = 8 y p = (probabilidad de cara) = 1/2 = 0,5. Se denota por B(8, 0'5).
b) Si en una determinada región, la tasa de paro entre su población activa es del 12%, si se pregunta a 10 personas de esa población, elegidos al azar, por su situación laboral, el número de parados viene descrito por la binomial de parámetros n = 10 y p = 0,12: B(10, 0'12).
Probabilidad de r éxitos
La función de probabilidad que mide el número r de éxitos cuando una prueba de carácter binomial se realiza n veces, B(n, p), viene dada por:
Media y varianza de la binomial B(n, p)
La media y varianza de la distribución B(n, p) se obtiene a partir de sus parámetros, siendo:
→ Media: μ=n·p.
→ Varianza: σ2 = n·p·q .
En consecuencia, la desviación típica vale σ =√npq
Ejemplos:
a) La media y desviación típica de la binomial B(8, 0'5) valen:
μ = 8·0,5 = 4
σ = √ 8·0,5·0,5= 2
Por tanto, cuando se tiran 8 monedas cabe esperar 4 caras.
b) Si se considera la binomial B(50, 0'12), que puede servir para determinar el número de parados en muestras de tamaño n = 50, se tiene:
Media: μ = 50 · 0,12 = 6 parados
desviación típica: σ = √ 50·0,12·0, 88 = √ 5, 28 = 2, 3 .
→ Para valores grandes de n, la probabilidad de cada uno de los posibles sucesos (de un número r de éxitos) es muy pequeña, sobre todo para valores de X alejados de la media. Así, por ejemplo, para la binomial B(50, 0,12), pueden darse las siguientes probabilidades:
P(X=2)=0,03816514; P(X=8)=0,10754701; P(X=12)=0,0084088;
P(X =15) = 0,00039533.
Playlist Binomial (Píldoras Matemáticas)
APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL MEDIANTE UNA NORMAL
Corrección de continuidad
RELACIÓN DE EJERCICIOS DE APROXIMACIÓN DE LA BINOMIAL A LA NORMAL
Videos con ejemplos de aproximación de la binomial a la normal:
A continuación os dejo consejos para aplicar en la resolución de problemas, para ello trataremos de diferenciar el tipo de problemas que nos vamos a encontrar en la EvAU.
PROBLEMAS DE MUESTREO (ejercicios 14a y 22a de la relación propuesta)
En este tipo de problemas, la primera dificultad que nos encontramos es que el texto, quizás lo encontréis un poco abstracto, lo más usual es que nos describan un proceso de MUESTREO ALEATORIO ESTRATIFICADO con AFIJACIÓN PORPORCIONAL (o cualquier expresión equivalente a ésta), esto significa que la muestra se conforma por individuos de varios estratos de una manera PROPORCIONAL al tamaño del estrato con respecto a la población total. Aquí lo más útil es hacer una tabla de contingencia donde por un lado tengamos todos los estratros E1, E2, ... y el total (todo esto pueden ser las columnas de una tabla) y por otro lado tengamos las distintas muestras que hacemos M1, M2,... y el total (población).
E1 E2 E3 E4 TOTAL
M1
M2
POB
En este tipo de ejercicios suele haber algún apartado que se solucione con solo rellenar esa tabla. Para ello distribuiremos y calcularemos de forma proporcional (regla de tres) los datos que nos facilite el ejercicio.
Otros apartados típicos de estos ejercicios nos solicitarán que dada una población (y nos darán los datos de una población pequeña compuesta de 4 o 5 elementos), calculemos todas las muestras posibles (de un tamaño determinado, en general de 2 elementos) y que calculemos la media y la varianza de la distribución de medias muestrales. Para ello, suele ser más rápido calcular la media y varianza de la población y luego aplicar las fórmulas de la media y varianza de la distribución de medias muestrales.
PROBLEMAS DE DISTRIBUCIONES DE PROBABILIDAD (ejercicios 19a, 21c, 23 y 24a de la relación propuesta)
En este tipo de problemas, se nos facilitará en el enunciado la información necesaria para describir el proceso del que se quiere calcular algún tipo de probabilidad, para ello nos tienen que dar las características de la Distribución Normal que sigue dicho proceso, es decir la Media y la Desviación Típica (o Varianza).
Lo más usual es que esta distribución sea del tipo N( μ , σ) que habrá que tipificar para poder utilizar la Tabla de N(0,1). Para poder sacar la probabilidad, es usual que tengamos que jugar con el cálculo que se nos pide y el dato que nos da la tabla, para ello utilizaremos las fórmulas de cambio y uso de probabilidad en la N(0,1).
PROBLEMAS DE DISTRIBUCIONES DE MEDIAS MUESTRALES (ejercicios 14b, 21, 23b y 24c de la relación propuesta)
Estos ejercicios los identificaremos porque harán referencia o mención a una distribución de medias muestrales (o de la muestra). Para resolverlos tendremos muy en cuenta las fórmulas que nos relacionan la media y desviación típica de la muestra (o población original) y las de las medias y desviaciones típicas de la distribución de medias. No confundiremos el tamaño de la población y el tamaños de las muestras que nos proporcionarán como descripción de la distribución de medias muestrales.
PROBLEMAS DE DISTRIBUCIONES DE LA PROPORCIÓN MUESTRAL
En este tipo de ejercicios se tratarán aspectos de una población o muestras de ella que cumplan o no un cierto aspecto. Son menos frecuentes que los anteriores, y en la mayoría de los casos, lo que se requiere es calcular el intervalo de confianza asociado a una determinada proporción o el tamaño de las muestras para que una determinada proporción se cumpla.
PROBLEMAS DE INTERVALOS DE CONFIANZA
Este tipo de cuestiones es muy usual que sean preguntadas en los problemas de la EvAU, y pueden ser relativas a una distribución de medias muestrales, a una distribución de la proporción muestral o a cualquier distribución de probabilidad genérica.
Para poder resolver este tipo de cuestiones, el primer paso es saber de que tipo de distribución quieren que confeccionemos el intervalo de confianza, para posteriormente poder aplicar las fórmulas correctas.
En muchos casos tendremos que estimar la probabilidad teniendo en cuenta un determinado nivel de confianza o significación, por lo que trendremos que usar las tablas de manera inversa para calcular el valor crítico Z⍺/2
PROBLEMAS DE ERROR MÁXIMO COMETIDO O ERRORES MÁXIMOS ADMISIBLES
En este caso, lo que se nos pide es calcular errores, para ello identificaremos el tipo de distribución que nos facilita el problema y luego aplicaremos sus fórmulas correspondientes. Junto con intervalos de confianza y tamaño de la muestra, forman un "pack" que suele ir entrelazado y que se pregunta de manera conjunta, por lo que su resolución no debe plantearnos muchas dificultades si tenemos presentes su fórmulas.
PROBLEMAS DE DETERMINAR EL TAMAÑO DE UNA MUESTRA
Este tipo de cuestiones, al igual que las anteriores, son muy usuales en ejercicios de la EvAU, y se resuelven actuando de manera similar a como se procede con los intervalos de confianza, utilizando las fórmulas del error pero despegando n
PROBLEMAS DE BINOMIAL (son ejercicios nuevos que pueden entrar este año. Ejercicio 32 de la relación propuesta)
En este tipo de ejercicios, nos describen un proceso donde nos hablarán de las probabilidades que hay de cumplirse un cierto suceso o su contrario y, a partir de ahí, nos pedirán que calculemos distintas probabilidades. Las variables que se describen serán claramente discretas. Para finalizar nos podrían pedir que calcularamos una distribución de probabilidad normal a la que podríamos aproximar nuestra distribución de probabilidad discreta B(n,p) por una N( μ , σ) y después hacer la tipificación correspondiente para hacer unos últimos cálculos de probabilidades.