mates y + con Javier

2 BACH-CCSS

BLOQUE DE ESTADÍSTICA

En esta página encontrarás todo el material resumido de preparación para el bloque de estadística.

En este último bloque de contenidos de la materia de Matemáticas Aplicadas a las Ciencias Sociales vamos a trabajar problemas y ejercicios que podríamos clasificar en varios apartados, siguiendo la denominación de vuestro libro de texto (Anaya):

Conceptos previos
Teoría de muestras (tema 11)
Distribuciones de probabilidad ( temas 12)
Distribución Normal (tema 12)
Distribución Binomial (tema 13)
Tipps para afrontar la resolución de problemas EvAU

1. Conceptos previos

Estadística: La estadística es una rama de las matemáticas que te permite recopilar, organizar y analizar datos según la necesidad que tengas, por ejemplo: obtener un resultado, comparar información, tomar mejores decisiones, entre muchas cosas más.

¿Qué es la estadística y para qué sirve?

Tipos de estadística

Hay dos tipos de estadística: la descriptiva y la inferencial.

Estadística descriptiva: te ayuda a organizar una gran cantidad de datos a través de métodos, tablas y gráficos que te permiten presentar los resultados de forma ordenada. En este curso te mostramos algunas de estas herramientas.

La estadística inferencial: se encarga de realizar conclusiones y deducciones a partir de una muestra de datos. Es útil cuando necesitas tomar decisiones o establecer cuál es la tendencia en un grupo de información.

Por ejemplo: si quieres saber cuál es el salario promedio de los pilotos de tu país deberías encuestarlos a todos, pero te tomaría mucho tiempo. Lo que haces es reunir las respuestas de solo un grupo de pilotos y, según los resultados, deducir la cifra promedio.

Variables estadísticas

Las variables estadísticas son características o cualidades de una persona, animal u objeto, las cuales puedes medir. Por ejemplo: la edad, la estatura, el peso o la altura de un edificio.

Las variables pueden ser de dos tipos:

Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).
Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).
Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc., pero, por ejemplo, nunca podrá ser 3,45).
Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.

Parámetros o medidas estadísticas

Son medidas (valores) que informan sobre la característica o propiedades de un serie de datos, resumiendo la información que nos dan todos los datos del estudio estadístico.

Hay de dos tipos, las medidas de centralización (nos dan información sobre el valor central de la distribución estadística), la más habitual es la media aritmética y las medidas de dispersión (nos dan información de como los valores de la distribución estadística se alejan del centro de la distribución), la más habitual es la desviación típica.

Medidas de centralización

La media aritmética es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total de datos:

Medidas de dispersión

Estudian la distribución de los valores de la variable, analizando si éstos se encuentran más o menos concentrados, o más o menos dispersos.

La más habitual es la varianza.
Mide la distancia existente entre los valores de la serie y la media. Se calcula como sumatorio de las diferencias al cuadrado entre cada valor y la media, multiplicadas por el número de veces que se ha repetido cada valor. El sumatorio obtenido se divide por el tamaño de la muestra.

La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están.

El problema de la varianza es que no viene expresada en las mismas unidades de la variable, sino en cuadrados, lo cual no tiene mucho sentido.

Para solucionarlo, se define la desviación típica como la raíz cuadrada positiva de la desviación típica.

RESUMEN DE FÓRMULAS ELEMENTALES DE ESTADÍSTICA

2. Teoría de muestras

EL PAPEL DE LAS MUESTRAS

Población o universo es el conjunto de todos los individuos objeto de nuestro estudio.

Muestra es un subconjunto extraído de la población. Su estudio sirve para inferir características de toda la población.

¿CÓMO DEBEN SER LAS MUESTRAS?

Hay dos aspectos de las muestras a los que deberemos prestar mucha atención: su tamaño y cómo se realiza la selección de los individuos que la forman.

Respecto al tamaño, es claro que si la muestra es demasiado pequeña, no podremos obtener de ella ninguna conclusión que merezca la pena.

MUESTREO

La elección de la muestra se llama muestreo. Si la muestra está mal elegida (no es representativa) se producen errores adicionales imprevistos e incontrolables (sesgos). Veamos a continuación cómo debe realizarse el muestreo para que nos proporcione muestras representativas.

MUESTREO ALEATORIO

Se dice que un muestreo es aleatorio cuando los componentes de la muestra se eligen al azar, de modo que todos los individuos de la población tienen, a priori, la misma probabilidad de ser elegidos.

TIPOS DE MUESTREO ALEATORIO

MUESTREO ALEATORIO SIMPLE (MAS)

Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los n elementos que debe contener la muestra. Si los individuos son, por ejemplo, los tornillos contenidos en una caja, para obtener la muestra basta tomar n de ellos por simple extracción.

MUESTREO ALEATORIO SISTEMÁTICO

Se numeran los individuos y, a partir de uno de ellos elegido al azar, se toman los siguientes mediante «saltos» numéricos iguales. Por ejemplo, si el primero es el 5.° y el «salto» es de 13, se elegirán 5.°, 18.°, 31.°, 44.°…

El «salto» se llama coeficiente de elevación, h, y se obtiene mediante el cociente entero entre el número de individuos de la población, N, y el número de individuos de la muestra, n: h = N/n .

El primer elemento, llamado origen, se elige al azar entre los números 1, 2, 3, …, h.

Una vez numerados los N individuos de la población y sabiendo que la muestra ha de ser de tamaño n, el proceso que se sigue es:

— Se calcula el coeficiente de elevación, h, dividiendo N entre n.

— Se averigua el primer elemento de la muestra, origen, a1, obteniéndolo aleatoriamente de entre los h primeros.

— Se obtienen los restantes elementos de la muestra: a2 = a1 + h, a3 = a2 + h, a4 = a3 + h, …

EJEMPLO

En un centro escolar hay 1 300 alumnos. Explicar cómo se elige una muestra de tamaño 100:

a) Mediante muestreo aleatorio simple.

b) Mediante muestreo aleatorio sistemático.

a) Se sortean 100 números de entre los 1 300. La muestra estará formada por los 100 alumnos a los que correspondan esos números.

b) Coeficiente de elevación: h = = 13

— Se sortea un número del 1 al 13. Supongamos que sale el 5.

— Los alumnos seleccionados para la muestra son los que corresponden a los números 5, 18, 31, 44, 57, …, 1 292.

MUESTREO ALEATORIO ESTRATIFICADO

Si la población puede dividirse en estratos relacionados con la variable que se está estudiando (por ejemplo, por edades: menores de 18 años; de 18 a 50; más de 50), a veces conviene elegir la muestra fijando de antemano el número de individuos de cada estrato.

La determinación del número de elementos que ha de tener de cada estrato se denomina afijación de la muestra. No siempre se conoce la distribución de individuos en los estratos (ni siquiera aproximadamente). En tal caso, se forma la muestra tomando el mismo número de individuos de cada estrato. A este proceder se le llama afijación simple.

Cuando estos números son proporcionales a los tamaños de los estratos en la población, se dice que el muestreo es estratificado con reparto proporcional.

En cada estrato, los ni individuos de la muestra se eligen aleatoriamente.

El muestreo estratificado es el más utilizado en la práctica. Se recurre a él cuando se supone que la pertenencia a uno u otro estrato influye en la variable que estamos analizando. Por ejemplo:

— Se puede suponer que los alumnos de cursos superiores estudian más que los demás.

— La edad influye en las opiniones sobre aspectos sociológicos.

— La pertenencia a una u otra comunidad autónoma puede influir en la renta per cápita, en la tasa de paro, en el precio de la vivienda…

EJEMPLO

1. Los 1 300 estudiantes de un centro se reparten así:

426 de 1.º
359 de 2.º
267 de 3.º
133 de 4.º
115 de 5.º

¿Cómo se elegirá una muestra de 100 estudiantes mediante muestreo estratificado con reparto proporcional?

4. TÉCNICAS PARA OBTENER UNA MUESTRA ALEATORIA DE UNA POBLACIÓN FINITA.

Para obtener una muestra aleatoria se «sortean» los individuos de la población para decidir al azar cuáles de ellos forman parte de la muestra. El «sorteo» puede realizarse de diversas formas:

ELECCIÓN MEDIANTE EXTRACCIÓN

Esta operación puede realizarse de dos formas distintas:

— Sin reemplazamiento: se eligen simultáneamente, o bien una a una, las n papeletas de la muestra.

— Con reemplazamiento: se eligen una a una n papeletas pero, después de cada extracción, la papeleta elegida (y anotada) se devuelve a la caja.

ELECCIÓN MEDIANTE NÚMEROS ALEATORIOS

Las calculadoras tienen una tecla , que se llama generadora de números aleatorios, con la cual se obtiene al azar un número decimal comprendido entre 0,000 y 0,999.

— Si se obtiene la muestra por insaculación (extracción de papeletas), debe realizarse sin reemplazamiento.

— Si se recurre a los números aleatorios, se consigue una muestra como si fuera con reemplazamiento. Puede haber elementos repetidos que deben suprimirse y ser sustituidos por otros, elegidos del mismo modo.

Ejemplo: De una población de 423 individuos, se quiere extraer una muestra de tamaño 5. Describir el proceso para obtenerla mediante números aleatorios.

5. MUESTRAS Y ESTIMADORES.

Se recurre a una muestra para inferir algunos aspectos de la población. En concreto se tratará de estimar (valorar aproximadamente) uno o más parámetros de la población a partir de parámetros de la muestra.

QUÉ ES UN ESTIMADOR

Para inferir el valor de la media, μ, de la población lo lógico es recurrir a la media, x̅ , de la muestra. Diremos que x̅ es un estimador de μ.

λ es un parámetro de la población. Decimos que λ̅ es un estimador suyo si es un parámetro obtenido a partir de una muestra y cuyo fin es asignar un valor aproximado a λ.

PROPIEDADES DE LOS ESTIMADORES

Veamos, pues, algunas propiedades que debe poseer λ̅ para que lo consideremos un estimador adecuado para λ:

λ̅ debe ser centrado (no sesgado)

Consideremos todas las posibles muestras de tamaño n. En cada una de ellas λ̅ toma un valor. El promedio de esos valores se designa E [λ̅] (la esperanza matemática de λ̅, «lo que se espera», es el promedio de los posibles valores).

Se dice que λ̅ es un estimador centrado o insesgado de λ si E [λ̅] = λ.

λ̅ debe ser eficiente

λ̅ es eficiente si la varianza de sus posibles valores, V ( λ̅), es pequeña. Es decir, un estimador, λ̅ 1, es más eficiente que otro, λ̅2, si V ( λ̅ 1) < V ( λ̅ 2).

¿Por qué es bueno que sea eficiente? No olvidemos que en la práctica solo extraeremos una muestra. Si V ( λ̅) es grande, el valor concreto obtenido para λ̅ es probable que esté muy alejado de λ. Es decir, lo estimará mal.

λ̅ debe ser consistente

λ̅ es consistente, tanto mejor cuanto mayor sea el tamaño de la muestra. Más aún, debe cumplir que λ̅ → λ cuando n → N.

En definitiva, un estimador debe ser insesgado, consistente y lo más eficiente posible.

EJEMPLOS

1. Población. Muestra

a) Un fabricante de tornillos, para realizar un control de calidad, recoge uno de cada 100 tornillos fabricados en un día y los somete a diversas pruebas.

La población es el conjunto de todos los tornillos fabricados por la máquina. El fabricante escoge una muestra.

b) En unos grandes almacenes, para indagar sobre la eficacia de una dependienta recién contratada, se pregunta a todos los clientes atendidos por ella durante su primer día de trabajo.

Puesto que se les pregunta a todos los clientes atendidos por ella, es una población.

c) En otros grandes almacenes, para indagar sobre la eficacia de los dependientes, se pregunta a todos los clientes que salen por una de las puertas durante un día.

Es una muestra: se trata de una parte de los clientes atendidos ese día.

d) En unas elecciones locales se escrutan las papeletas.

En las elecciones, referéndums, etc., siempre se recurre a la totalidad de la población (individuos censados y con derecho a voto por tener la edad mínima exigida).

e) En una librería he ojeado algunas páginas de un cómic que tiene buena pinta para saber si me va a gustar.

Es una muestra, ya que la población sería leer el cómic entero.

2. Por qué se recurre a una muestra

a) En un almacén hay 4200 vasos de vidrio. Se quiere estudiar su resistencia a la rotura. Para hacerlo, se les somete a presiones crecientes hasta que se parten.

Puesto que el proceso de medición es destructivo, es imprescindible recurrir a una muestra y, además, tan pequeña como sea posible (pero procurando que se puedan extraer de su estudio conclusiones fiables).

b) Para estudiar el tiempo de reacción de ciertas sustancias, se las hace reaccionar en 25 ocasiones, tomando medidas en cada una de ellas.

En esta, como en otras experiencias, se supone que si se controlan todas las variables (cantidades de las sustancias que intervienen en la reacción, pureza de las mismas, presión, temperatura…), el resultado sería siempre el mismo. Sin embargo, el control de las variables no es perfecto. Por tanto, cada experimento puede dar lugar a un resultado distinto (supuestamente serán muy parecidos a otros). La población es infinita, pues se compone de todos los experimentos que se podrían realizar. Naturalmente, hemos de recurrir a una muestra.

c) Un profesor, para ver si sus explicaciones han sido entendidas por sus alumnos y alumnas, realiza varias preguntas entre ellos.

Las preguntas que realiza el profesor en clase son una muestra que sirve para tantear lo que saben los estudiantes. Incluso de los exámenes solo se extrae una muestra de sus conocimientos, ya que sería imposible preguntárselo todo.

d) Un grupo de biólogos quiere realizar medidas de las longitudes de las pinzas de los cangrejos blancos de Lanzarote.

Como el procedimiento es difícil de llevar a cabo e invasivo con los animales de esta especie, se toma una muestra lo más pequeña posible pero suficientemente grande para que sea significativa.

3. Muestreo

El censo electoral de una población consta de 27 800 electores. Deseamos extraer una muestra de 200 individuos.

a) ¿Cómo se debe realizar mediante muestreo aleatorio sistemático?

b) ¿Cómo se debe realizar mediante muestreo aleatorio simple?

Utiliza la función RANDOM de la calculadora.

a) Muestreo aleatorio sistemático

Coeficiente de elevación: h = 27800/200 = 139

Esto significa que hemos de seleccionar un individuo de cada 139. Para averiguar por cuál empezamos, elegimos al azar un número de 1 a 139. Puede realizarse mediante la función Ramdon de una calculadora:

139 x Shift · (Random) +1= , y nos quedamos con la parte entera.

El primer elemento será el 87 de la lista.

Y los siguientes serán: 87 + 139 = 226, 226 + 139 = 365, …

b) Muestreo aleatorio simple

La secuencia 27 800 x Shift · (Random) +1= nos proporciona un individuo al azar del colectivo inicial. Para seleccionar los 200 elementos de la muestra, después de la secuencia hay que pulsar 199 veces más la tecla = . Si aparece algún número repetido, se suprime y se obtiene otro en su lugar.

Los números aleatorios deben ser obtenidos con ordenador, para que tengan, al menos, cinco cifras decimales.

4. Muestreo estratificado

De la población anterior sabemos que el 20 % tienen entre 18 y 25 años; el 35 %, entre 26 y 40, y el 45 %, más de 40.

¿Cómo se extraería una muestra de 200 individuos con reparto proporcional?

20% de 200 = 40

35% de 200 = 70

45% de 200 = 90

Se elegirán al azar 40 individuos de entre los que tienen de 18 a 25 años; 70 de 26 a 40 años y 90 de más de 40 años.

Para ello, en el censo deberán figurar las edades de los individuos.

5. Muestreo estratificado

3. Distribuciones de probabilidad

Una distribución de probabilidad es un modelo trico que trata de explicar el comportamiento de un fenómeno real.

La variable aleatoria asocia a cada suceso del espacio muestral un número real. Puede ser discreta o continua. Se llama discreta cuando solo puede tomar ciertos valores aislados. Es continua cuando puede tomar todos los valores de un intervalo.

→ Un caso particularmente importante de distribución discreta es la llamada binomial.

→ La distribución continua más utilizada es la normal.

Ejemplos:
a) El número de veces que hay que lanzar uno de esos dados hasta que salga el número 6 es una variable aleatoria discreta
b) El tiempo que una persona tiene que esperar al autobús es una variable continua.

c) La suma de los resultados obtenidos al lanzar dos dados es una variable aleatoria discreta.

d) El número de veces que hay que lanzar uno de esos dados hasta que salga el número 6 es también discreta.

e) El tiempo que una persona tiene que esperar al autobús es una variable continua. Igualmente, la estatura de esa persona o su peso son variables continuas.

La variable aleatoria asocia a cada suceso del espacio muestral un número real. Así, por ejemplo, en el experimento consistente en lanzar dos dados numerados del 1 al 6 y hallar su suma (X), la variable X puede tomar cualquier valor entero entre 2 y 12.

Las probabilidades de esos valores pueden calcularse mediante la regla de Laplace, teniendo en cuenta que los casos posibles son 36 y que los casos favorables se contabilizan en las diagonales de la tabla de sumas adjunta.

Por ello, la distribución de probabilidad de X se resume en la siguiente tabla:

Función de probabilidad
Una distribución de probabilidad queda determinada a partir de su función de probabilidad (llamada función de densidad, en el caso de las distribuciones continuas), que asigna a cada uno de los valores de la variable aleatoria su probabilidad: f (xi ) = P(X = xi )= pi

Función de distribución
A partir de la distribución de probabilidad de la variable X se define la función de distribución,

F(x), de dicha variable como sigue: F(x) = P(X ≤ x) → F(x) acumula probabilidades.

DISTRIBUCIONES DE PROBABILIDAD CON VARIABLES DISCRETAS

Función de probabilidad

Es la que asigna a cada uno de los valores de la variable aleatoria discreta su probabilidad correspondiente.
Puede definirse como sigue:

f ( xi ) = P ( X = xi ) = pi .

Al tratarse de de una función de probabilidad debe cumplir que: 0≤f(xi)≤1.
∑pi = 1 → la suma de las probabilidades de todos los sucesos es igual a 1.

Si x no es alguno de los valores de la variable aleatoria, f(x)=0

Función de distribución

A partir de la distribución de probabilidad de la variable X se define la función de distribución, F(x), de dicha variable como sigue:

F(x) = P(X≤x)
A cada valor x, F(x) le asigna la probabilidad de que la variable aleatoria tome valores menores o iguales que x. La función F(x) acumula probabilidades: F(x) = ∑ f (xi )

Por tanto, si se conoce la función de distribución de una variable aleatoria, es posible determinar la probabilidad de que tome uno de sus valores, pues:

P ( X = xi ) = F ( xi ) − F ( xi −1 )

Igualmente: P(X>xi)=1−F(xi)

Media y varianza de una distribución de probabilidad discreta

Los parámetros estadísticos más usuales se calculan como sigue.

→ La media de una distribución es un valor central que indica la cantidad que correspondería a cada suceso en una repartición igualitaria.
Si una variable aleatoria toma los valores x1, x2, ..., xn, con probabilidades p1, p2, ..., pn, la media, que suele denotarse por la letra griega (mu), se calcula mediante la expresión:

DISTRIBUCIONES DE PROBABILIDAD CON VARIABLES CONTINUAS

Una variable estadística se llama continua cuando puede tomar todos los valores de un intervalo. Así, por ejemplo, son variables estadísticas continuas, las estaturas y pesos de los individuos, los tiempos de espera de un autobús, el tamaño de una determinada variedad de manzanas, etc.

Para estas distribuciones, la probabilidad de un valor concreto es 0, pues el número de casos posibles es infinito. Por ejemplo, la probabilidad de que una persona mida exactamente 172,12345678910... cm es 0; altura tan improbable como que mida exactamente 172,000...cm. En cambio, la probabilidad de que una persona mida entre 171,5 cm y 172,5 cm sí podrá calcularse.

Esto es, si X es la variable que mide la estatura de una persona, se tendrá:

P (X =172,12345...)=0 y P(X =172,000...)=0.

En cambio, P (171, 5< X < 172, 5) = ? , valor que dependerá de la población de estudio.

Función de probabilidad o función de densidad de una variable continua

Función de distribución de una variable continua

La función de distribución, F(x), asigna a cada valor x la probabilidad de que la variable X tome valores menores o iguales que x. Se define como sigue:

Media y varianza de una variable continua

Si una distribución de variable continua X tiene función de densidad f(x),su media y varianza se determinan como sigue:

4. Distribución Normal

Es una distribución de probabilidad continua, asociada (teóricamente) a multitud de fenómenos naturales y cotidianos (cociente intelectual, talla o peso de las personas; tamaño de los frutos de cualquier tipo de árbol...), que se caracterizan porque la mayoría de los resultados tienden a agruparse en torno a su media.

Una variable con distribución normal queda totalmente definida por su media μ y por su desviación típica σ . Se denota como N(μ ,σ ).

¿Qué es la distribución normal? Vídeo Píldoras Matemáticas

Distribución normal de media 0 y desviación típica 1: N(0, 1)
El comportamiento estadístico normal hace que puedan asignarse valores de probabilidad a cualquier suceso de la variable estudiada. Esto es, se puede saber (pues está tabulado) la probabilidad de que la variable tome valores comprendidos entre los extremos de un intervalo dado.
Lo que está tabulado es la función de distribución en el caso de la curva normal de media μ = 0 y desviación típica σ= 1, la normal N(0, 1).

La función de distribución normal. (Píldoras Matemáticas)

USO DE LA TABLA N(0,1)

Distribución normal N(0,1) (Píldoras matemáticas)

Cálculo del valor de Z a partir de su probabilidad asociada

Otros ejemplos del uso de la tabla N(0,1):

Ejemplos (Píldoras matemáticas)

Ejercicios (Píldoras matemáticas)

Cálculo de probabilidades en una Normal Tipificada
La distribución N(0,1) que se representa por 𝑍, se encuentra tabulada, lo cual permite un cálculo rápido de las probabilidades asociadas a la misma.
Aunque existe muchos fenómenos que se comporten como una distribución normal, se puede afirmar que ninguno de ellos se comporta exactamente como una N(0,1). Las distribuciones normales con las que se trabaja en la práctica no son la estándar.
Lo más aconsejable sería transformar la variable x que sigue una distribución N(𝜇,𝜎) en otra variable Z que siga una distribución N(0,1) . Esta transformación se conoce con el nombre de tipificación de la variable y consiste en:
- Centrar : consiste en trasladar la media de la distribución al origen de coordenadas. Esto equivale a hacer 𝜇 =0
- Reducir: la desviación estándar a 1 (𝜎=1). Esto equivale a dilatar o contraer la gráfica de la distribución para que coincida con la ley estándar:
  Z = (𝑿−𝝁)/ 𝝈

Tipificación (Píldoras Matemáticas)

INFERENCIA

La inferencia estadística induce las características de la población utilizando las de los parámetros obtenidos empíricamente para la muestra. Una vez seleccionada la muestra por cualquiera de los métodos anteriormente descritos, podemos obtener de ella los estadísticos media y proporción. Los parámetros de la población se pueden estimar a partir de los de la muestra, estimándose la media poblacional a partir de la media de la muestra y la porporción de la población a partir de la proporción muestral. Los parámetros de la población así obtenidos no pueden tener certeza absoluta. Cuando realizamos una inferencia de los parámetros, el error de la estimación es la diferencia entre el parámetro real de la población y el parámetro inferido.

Podemos realizar la estimación mediante:

Estimación puntual: obteniendo un único valor de un parámetro pobacional estimado a partir de las observaciones muestrales.
Estimación por intervalos: obteniendo los extremos del intervalo en la recta real en el que con cierta probabilidad se situará el parámetro poblacional.

Definiciones:

Intervalo de confianza, es el intervalo de la recta real en el que consideramos con determinada certeza que se encuentra el parámetro poblacional.
Nivel de confianza, es la probabilidad de que el verdadero valor del parámetro estimado se encuentre en dicho intervalo. El nivel de confianza se indica por 1-⍺ con 0<⍺<1 (1 es la probabilidad total, área bajo la curva de la distribución normal).
Nivel de significación ⍺, es el riesgo de que el verdadero valor del parámetro estimado no se encuentre en el intervalo de confianza.

Intervalos característicos

Los intervalos característicos de una distribución normal X, son intervalos cuyos extremos equidistan de la media y cuya probabilidad es una cantidad determinada p=1-⍺, generalmente 0,9; 0,95 y 0,99.

Si la variable x tiene una distribución de media 𝜇 , se llama intervalo característico correspondiente a una probabilidad p a un intervalo centrado en la media, (𝜇-k,𝜇+k), tal que la probabilidad de que x pertenerz a dicho intervalo es p:

P[𝜇-k<x<𝜇+k]=p=1-⍺

Principales intervalos característicos en N(0,1)

Con mucha frecuencia usamos intervalos característicos de distribuciones normales y, en concreto, de distribuciones N(0,1)

Para ello buscamos el valor de Z⍺/2 tal que P(-Z⍺/2<Z<Z⍺/2)= 1- ⍺

El valor Z⍺/2 recibe el nombre de valor crítico correspondiente a 1- ⍺

Teniendo en cuenta lo anterior y si X sigue una distribución N(𝜇,𝜎), al tipificar Z = (𝑿−𝝁)/ 𝝈, entonces el intervalo correspondiente a un nivel de confianza 1- ⍺, es: (𝝁-Z⍺/2 · 𝝈, 𝝁+Z⍺/2 · 𝝈)

Intervalos característicos (Píldoras matemáticas)

Ejercicio Intervalos características (Mates con Andrés)

Ejercicios de inferencia (Píldoras matemáticas)

DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES

Teorema Central del Límite

Dada una población de media 𝝁 y desviación típica 𝝈, no necesariamente normal, la distribución de las medias de las muestras de tamaño n:

Tiene la misma media, 𝝁, que la población
Su desviación típica es 𝝈/√n y, por consiguiente, disminuye al aumentar n
Cuando n ≥ 30 es prácticamente normal

Distribución de las medias muestrales

Valores de probabilidad en las muestras

Que las medias muestrales se distribuyan normalmente permite determinar los v alores de probabilidad de cualquier media elegida por métodos aleatorios de una población normal. Basta con tipificar dichos valores y usar la N(0, 1).

Ejemplo:
Supongamos que la altura de una determinada raza de ovejas se distribuye normalmente con media 80 cm y desviación típica 12 cm: N(80, 12). Para esa raza de ovejas se pueden obtener los valores de probabilidad es los siguientes casos:
a) De que una oveja elegida al azar mida más de 83 cm de alta.
b) De que la altura media de una muestra aleatoria de 36 ovejas supere los 83 cm.
c) De que la altura media de una muestra de 100 ovejas supere los 83 cm.

Comentarios:
1. Observa que no sería extraño encontrar una oveja con altura superior a 83 cm, pero es muy improbable que la altura media de 100 ovejas, elegidas aleatoriamente, supere los 83 cm.
2. Si una muestra está bien realizada y tiene el tamaño suficiente, su media estará muy próxima a la media real de la población de partida. Este es el fundamento de la inferencia estadística, lo que da consistencia a sus resultados; aunque una muestra solo proporciona la seguridad puntual de su media o de de su desviación típica. (En el apartado siguiente se concretará un poco más).
3. Lo importante es que las medias muestrales tienen un comportamiento que se ajusta a una normal: se distribuyen normalmente.
4. La distribución de las medias muestrales es normal incluso en el caso de que estas procedan de poblaciones no normales, siempre que el tamaño de la muestra sea grande (n ≥ 30).
5. El fundamento matemático de lo dicho forma parte del teorema central del límite.

Intervalo de confianza para la media de la población

La media, ⴳ, de los elementos de una muestra es una estimación puntual de la media, 𝝁, de la población de partida. Esto significa que la media real está próxima a ⴳ; pero: ¿cuánto de próxima?, y ¿qué seguridad se tiene de que sea así?
Por eso la estimación no se hace solo en términos puntuales, dando ⴳ , si no definiendo un intervalo alrededor de la media muestral e indicando la probabilidad que se tiene de sea realmente así.

Ese intervalo se llama de intervalo de confianza. A la probabilidad de que tal estimación sea cierta se la llama nivel de confianza.

Intervalo de confianza para la media

Error Admitido

Tamaño muestral

DISTRIBUCIÓN DE LA PROPORCIÓN DE LAS MUESTRAS

Intervalo de confianza para la proporción de las muestras

Error admitido

Tamaño muestral

Distribución de las proporciones muestrales (Píldoras Matemáticas)

Ejercicios proporciones muestrales (Píldoras Matemáticas)

5. Distribución Binomial

Es una de las distribuciones de probabilidad más utilizadas en la práctica estadística. Se emplea cuando el fenómeno de estudio queda determinado por dos sucesos complementarios: si/no; hombre/mujer; nacional/extranjero; trabajador en activo/parado; ... En general, esas dos situaciones pueden considerarse resultados de un experimento aleatorio y a los sucesos contrarios, sin que indique valoración alguna, suelen llamárseles éxito y fracaso.

Las características básicas de una distribución binomial son:

Cada prueba del experimento aleatorio presenta dos únicas opciones, que puede designarse como éxito (E) y fracaso (F).
Se realizan n ensayos del experimento, independientes unos de otros e idénticos.
La probabilidad de éxito es constante a lo largo de las n pruebas: P(E)= p
La probabilidad de fracaso también es constante: P(F)=q=1−p

→ Una distribución de estas características también recibe el nombre de pruebas de Bernoulli.

La variable aleatoria X, cuenta el número r de éxitos en las n pruebas: r = 0, 1, ..., n. Por tanto, los valores que puede tomar X son: 0, 1, 2, ..., n.
La distribución binomial queda determinada por los parámetros n y p (número de veces que se realiza el experimento y probabilidad de éxito en cada prueba).
Se indica simbólicamente por B(n, p)

Ejemplos:
a) La variable que cuenta el número de caras obtenidas al lanzar 8 monedas es una binomial de parámetros n = 8 y p = (probabilidad de cara) = 1/2 = 0,5. Se denota por B(8, 0'5).
b) Si en una determinada región, la tasa de paro entre su población activa es del 12%, si se pregunta a 10 personas de esa población, elegidos al azar, por su situación laboral, el número de parados viene descrito por la binomial de parámetros n = 10 y p = 0,12: B(10, 0'12).

Probabilidad de r éxitos
La función de probabilidad que mide el número r de éxitos cuando una prueba de carácter binomial se realiza n veces, B(n, p), viene dada por:

Media y varianza de la binomial B(n, p)
La media y varianza de la distribución B(n, p) se obtiene a partir de sus parámetros, siendo:

→ Media: μ=n·p.

→ Varianza: σ2 = n·p·q .
En consecuencia, la desviación típica vale σ =√npq

Ejemplos:
a) La media y desviación típica de la binomial B(8, 0'5) valen:

μ = 8·0,5 = 4

σ = √ 8·0,5·0,5= 2
Por tanto, cuando se tiran 8 monedas cabe esperar 4 caras.

b) Si se considera la binomial B(50, 0'12), que puede servir para determinar el número de parados en muestras de tamaño n = 50, se tiene:

Media: μ = 50 · 0,12 = 6 parados

desviación típica: σ = √ 50·0,12·0, 88 = √ 5, 28 = 2, 3 .

→ Para valores grandes de n, la probabilidad de cada uno de los posibles sucesos (de un número r de éxitos) es muy pequeña, sobre todo para valores de X alejados de la media. Así, por ejemplo, para la binomial B(50, 0,12), pueden darse las siguientes probabilidades:

P(X=2)=0,03816514; P(X=8)=0,10754701; P(X=12)=0,0084088;

P(X =15) = 0,00039533.

Playlist Binomial (Píldoras Matemáticas)

APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL MEDIANTE UNA NORMAL

Corrección de continuidad

RELACIÓN DE EJERCICIOS DE APROXIMACIÓN DE LA BINOMIAL A LA NORMAL

Videos con ejemplos de aproximación de la binomial a la normal:

6. Tips para afrontar la resolución de problemas EvAU

A continuación os dejo consejos para aplicar en la resolución de problemas, para ello trataremos de diferenciar el tipo de problemas que nos vamos a encontrar en la EvAU.

PROBLEMAS DE MUESTREO (ejercicios 14a y 22a de la relación propuesta)

En este tipo de problemas, la primera dificultad que nos encontramos es que el texto, quizás lo encontréis un poco abstracto, lo más usual es que nos describan un proceso de MUESTREO ALEATORIO ESTRATIFICADO con AFIJACIÓN PORPORCIONAL (o cualquier expresión equivalente a ésta), esto significa que la muestra se conforma por individuos de varios estratos de una manera PROPORCIONAL al tamaño del estrato con respecto a la población total. Aquí lo más útil es hacer una tabla de contingencia donde por un lado tengamos todos los estratros E1, E2, ... y el total (todo esto pueden ser las columnas de una tabla) y por otro lado tengamos las distintas muestras que hacemos M1, M2,... y el total (población).

E1 E2 E3 E4 TOTAL

POB

En este tipo de ejercicios suele haber algún apartado que se solucione con solo rellenar esa tabla. Para ello distribuiremos y calcularemos de forma proporcional (regla de tres) los datos que nos facilite el ejercicio.

Otros apartados típicos de estos ejercicios nos solicitarán que dada una población (y nos darán los datos de una población pequeña compuesta de 4 o 5 elementos), calculemos todas las muestras posibles (de un tamaño determinado, en general de 2 elementos) y que calculemos la media y la varianza de la distribución de medias muestrales. Para ello, suele ser más rápido calcular la media y varianza de la población y luego aplicar las fórmulas de la media y varianza de la distribución de medias muestrales.

PROBLEMAS DE DISTRIBUCIONES DE PROBABILIDAD (ejercicios 19a, 21c, 23 y 24a de la relación propuesta)

En este tipo de problemas, se nos facilitará en el enunciado la información necesaria para describir el proceso del que se quiere calcular algún tipo de probabilidad, para ello nos tienen que dar las características de la Distribución Normal que sigue dicho proceso, es decir la Media y la Desviación Típica (o Varianza).

Lo más usual es que esta distribución sea del tipo N( μ , σ) que habrá que tipificar para poder utilizar la Tabla de N(0,1). Para poder sacar la probabilidad, es usual que tengamos que jugar con el cálculo que se nos pide y el dato que nos da la tabla, para ello utilizaremos las fórmulas de cambio y uso de probabilidad en la N(0,1).

PROBLEMAS DE DISTRIBUCIONES DE MEDIAS MUESTRALES (ejercicios 14b, 21, 23b y 24c de la relación propuesta)

Estos ejercicios los identificaremos porque harán referencia o mención a una distribución de medias muestrales (o de la muestra). Para resolverlos tendremos muy en cuenta las fórmulas que nos relacionan la media y desviación típica de la muestra (o población original) y las de las medias y desviaciones típicas de la distribución de medias. No confundiremos el tamaño de la población y el tamaños de las muestras que nos proporcionarán como descripción de la distribución de medias muestrales.

PROBLEMAS DE DISTRIBUCIONES DE LA PROPORCIÓN MUESTRAL

En este tipo de ejercicios se tratarán aspectos de una población o muestras de ella que cumplan o no un cierto aspecto. Son menos frecuentes que los anteriores, y en la mayoría de los casos, lo que se requiere es calcular el intervalo de confianza asociado a una determinada proporción o el tamaño de las muestras para que una determinada proporción se cumpla.

PROBLEMAS DE INTERVALOS DE CONFIANZA

Este tipo de cuestiones es muy usual que sean preguntadas en los problemas de la EvAU, y pueden ser relativas a una distribución de medias muestrales, a una distribución de la proporción muestral o a cualquier distribución de probabilidad genérica.

Para poder resolver este tipo de cuestiones, el primer paso es saber de que tipo de distribución quieren que confeccionemos el intervalo de confianza, para posteriormente poder aplicar las fórmulas correctas.

En muchos casos tendremos que estimar la probabilidad teniendo en cuenta un determinado nivel de confianza o significación, por lo que trendremos que usar las tablas de manera inversa para calcular el valor crítico Z⍺/2

PROBLEMAS DE ERROR MÁXIMO COMETIDO O ERRORES MÁXIMOS ADMISIBLES

En este caso, lo que se nos pide es calcular errores, para ello identificaremos el tipo de distribución que nos facilita el problema y luego aplicaremos sus fórmulas correspondientes. Junto con intervalos de confianza y tamaño de la muestra, forman un "pack" que suele ir entrelazado y que se pregunta de manera conjunta, por lo que su resolución no debe plantearnos muchas dificultades si tenemos presentes su fórmulas.

PROBLEMAS DE DETERMINAR EL TAMAÑO DE UNA MUESTRA

Este tipo de cuestiones, al igual que las anteriores, son muy usuales en ejercicios de la EvAU, y se resuelven actuando de manera similar a como se procede con los intervalos de confianza, utilizando las fórmulas del error pero despegando n

PROBLEMAS DE BINOMIAL (son ejercicios nuevos que pueden entrar este año. Ejercicio 32 de la relación propuesta)

En este tipo de ejercicios, nos describen un proceso donde nos hablarán de las probabilidades que hay de cumplirse un cierto suceso o su contrario y, a partir de ahí, nos pedirán que calculemos distintas probabilidades. Las variables que se describen serán claramente discretas. Para finalizar nos podrían pedir que calcularamos una distribución de probabilidad normal a la que podríamos aproximar nuestra distribución de probabilidad discreta B(n,p) por una N( μ , σ) y después hacer la tipificación correspondiente para hacer unos últimos cálculos de probabilidades.

RESUMEN DE FÓRMULAS

TABLA N(0,1)