Ya hemos visto cómo se organizan los datos y cómo representarlos. Ahora vamos a estudiar cómo sacar información precisa sobre su distribución.
Como has podido comprobar, la estadística tiene una gran importancia en los medios de comunicación. Si sigues la información que nos llega a través de radio, prensa o televisión, seguramente habrá muchas personas famosas de las que habrás oído hablar aunque no se dediquen a parcelas sociales por las que tú tengas especial interés. Por ejemplo, aunque no seas una persona aficionada al fútbol, seguro que habrás oído hablar del fichaje del futbolista Cristiano Ronaldo . O aunque no seas aficionado al cine, habrás oído hablar, quizás hasta la saciedad, de Penélope Cruz,. Y puede que no seas un adicto a la lectura, pero seguro que conoces algo sobre el personaje de Harry Potter. Estamos seguros de que has escuchado hablar de estos personajes reales o ficticios porque, aunque el ambiente en el que se desarrollan no te atraiga, son fenómenos mediáticos que inundan en determinados momentos todos los medios. Algo igual pasa con el personaje al que va dedicado el siguiente vídeo, al que nos gustaría que le echaras un vistazo.
El vídeo anterior se realizó con motivo de la llegada de Rafael Nadal al número 1 del mundo en la clasificación de tenis. En el vídeo has podido ver los campeonatos que auparon a Nadal al primer puesto. Toda la trayectoria de un deportista profesional, durante el último año, se resume en un único número que es su clasificación en el ranking mundial.
Este proceso el que vamos a conocer en este apartado: cómo una gran cantidad de datos puede reducirse a un sólo valor que indicará información sobre ese conjunto de valores.
Imagina que eres una persona aficionada a la cocina y que has preparado un nuevo plato que presentas a tu familia. Quizás alguno de ellos, después de probarlo, exclame "este plato se merece un 9" o incluso un 10. Esa puntuación que se le da al plato puede depender de muchos factores: la originalidad, la textura, el sabor, la presentación, la cantidad, los productos y condimentos utilizados, etc. En este tema vamos a plantear algo similar. Vamos a buscar unos pocos valores que nos den información sobre la población que estamos estudiando.
Se llaman parámetros estadísticos a unos pocos valores que resumen las características fundamentales de una serie estadística de datos y se pueden clasificar en tres tipos: de centralización, dispersión y posición.
Hay conceptos estadísticos que seguro que utilizas muy a menudo, aún sin darte cuenta. Si tienes tantos hermanos o hermanas mayores como menores, entonces tú eres el hermano mediano (o hermana mediana, según el caso). Si utilizas algo que está de actualidad, es porque estás a la moda, es decir, te relacionas con lo que más gente usa en esos momentos. Si te gusta salir los fines de semana de marcha, seguro que unos días gastarás más que otros. Pero si quieres saber cuál es el gasto medio al mes deberás calcular la media estadística de los gastos de cada fin de semana. Estos tres conceptos tan elementales son los que vamos a desarrollar.
Los Parámetros de centralización son aquellos valores en torno a los cuales están agrupados los datos. Básicamente, son los valores centrales del conjunto de valores recogidos y representan, de forma global, a toda la población o la muestra.
En el siguiente enlace puedes ver información sobre algunos de los títulos conseguidos por un gran deportista.
Pirámides de Giza, Egipto.
Imagen del ITE en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
Se define la moda como el valor que más se repite entre los datos de que disponemos. Sería el resultado de la variable con mayor frecuencia absoluta. Vamos a representarla por Mo.
La moda es el único parámetroestadístico que puede utilizarse con cualquier tipo de variable. En concreto, es el único parámetro que tiene sentido calcular en las variables cualitativas.
Tiene además la particularidad de ser el único que puede tomar más de un valor. Por ejemplo, si disponemos de 6 monedas de 1 €, 1 €, 2 €, 0,50 €, 0,50 € y 0,20 €; la moda correspondería a los valores 1 € y 0,50 €, ya que ambas se repiten dos veces.
Escaparete de una tienda de moda, París.
Imagen de Luis Serrano en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
Los restantes parámetros estadísticos se utilizan cuando la variable es cuantitativa.
Si suponemos que los datos están ordenados numéricamente de menor a mayor, lamediana es el valor que está en el centro, es decir, el valor que tiene por delante la mitad de los valores y por detrás la otra mitad. La representaremos por Me.
Para su cálculo hay que distinguir si los datos están agrupados o no por intervalos. En el caso de que los datos estén agrupados por intervalos, la medianacoincide con el segundo cuartil, concepto que estudiaremos en el apartado correspondiente a los parámetros de posicionamiento.
Cuando los datos no están agrupados por intervalos, se procede de la siguiente forma para el cálculo de la Me:
Si el número de valores que tenemos esimpar, la mediana será el que ocupe el valor central. Por ejemplo, si el número de personas que viven en los distintos pisos de un bloque de viviendas son: 2, 2, 2, 3, 4, 4, 5, 5, 6; la cantidad mediana de personas que viven en esos pisos sería de 4 personas.
Si el número de valores de los que disponemos fuese par, entonces la mediana es la semisuma de los dos valores centrales. Y no importa que obtengamos un valor decimal, aunque parezca no tener sentido en el contexto. Si en el ejemplo anterior hubiese una vivienda más con tres personas, entonces los valores centrales serían el 3 y el 4, por lo tanto, la mediana sería
Carretera. Imagen del ITE en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
Nos queda por ver el parámetro central por excelencia: la media. Desde que comenzamos a estudiar la secundaria, dominamos muy bien qué es la media y como se calcula. Piensa que las notas que nos han puesto en nuestras evaluaciones suelen haber sido calculadas utilizando ese parámetro.
La media es el valor promedio del conjunto de valores que estamos trabajando. Suele representarse por
. Suele considerarse a la media como el centro de gravedad de la distribución de valores y, como veremos, no tiene por qué estar exactamente en la mitad.
Se calcula sumando todos los valores obtenidos y dividiendo entre el número total de datos. Si los datos que tenemos son x1, x2, x3, ... hasta el valor xN, entonces la media vendría dada por la expresión.
La media equivale al valor que obtendríamos si reuniésemos todo el valor completo de la variable y lo repartiésemos a partes iguales entre todas las observaciones que hubiésemos hecho.
Aquí tienes un ejemplo. Si sumamos los sueldos de todos los empleado,s tendríamos805+950+950+950+1200+1200+2100 = 8155 €. Si ahora calculamos la media, obtenemos:
Si supusiésemos que el sueldo de todos los empleados era igual, sería precisamente ese valor medio, ya que la suma de todos los sueldos valdría lo mismo:805+950+950+950+1200+1200+2100 = 8155 = 1165 · 7.
Tapa. Imagen de Arturo Mandly en Flickr
Licencia Creative Commons by-nc-sa
Ya sabes calcular los parámetros centrales de un conjunto de datos. Pero, ¿te servirá lo aprendido en todos los casos? Si quieres saber cuál es el gasto mensual medio que tienes de leche en tu casa, no hay mucha dificultad. Basta hallar la media de los litros de leche que habéis consumido durante los doce meses de un año. Pero si fueses el gerente de una cadena comercial con miles de empleados y quisieras saber cuál es la edad media de tus empleados, sería más complicado
Si recuerdas el ejemplo de los sueldos de apartado anterior, había tres empleados que cobraban 950 euros. A la hora de hallar la media, podíamos sumar tres veces ese valor o calcular950·3. En el caso de tres no parece muy interesante, pero si se repitiera el mismo sueldo 231 sería distinto: no costaría igual tener que sumar 231 veces una misma cantidad en lugar de multiplicarla por 231. Por es,o cuando tenemos muchos datos, los cálculos de los parámetros se realizan a través de la tabla de frecuencia.
Centro comercial. Imagen del ITE en el banco de imágenes del ITELicencia Creative Commons by-nc-sa
El cálculo de los parámetros de centralización a través de las tablas de frecuencia se realiza de la siguiente forma:
Mediana: como los valores están ordenados en la tabla de frecuencias, el procedimiento consiste en calcular la frecuencia absoluta acumulada. Se divide el número total de datos recogidos (N) entre dos. El primer valor cuya frecuencia absoluta acumulada supera a esa cantidad, es el valor mediano. Esto es debido a que si escribiésemos todos los valores ordenados uno detrás de otro, la frecuencia acumulada nos indicaría hasta qué lugares llegaban cada uno de los distintos valores.
Si la mitad de N coincide exactamente con el valor de la frecuencia acumulada de un valor, estaríamos como en el mismo caso del apartado anterior cuando teníamos un número par de valores. En ese caso, la mediana es la semisuma de ese valor y el siguiente.
Media: en lugar de sumar cada valor todas las veces que aparezca, multiplicamos el valor de la variable por la cantidad de veces que aparece (frecuencia absoluta). La suma de todos esos valores la dividimos entre el número total de valores recogidos. Se aplicaría la fórmula siguiente:
Si en lugar de valores de una variable discreta, tuviésemos valores de una variable continua, el proceso es muy similar. En este caso, en lugar de moda se habla de intervalo modal y, de momento, en lugar de mediana hablaremos de intervalo mediano.
Para hallar la media, únicamente hay que tener en cuenta que se toma como valor xi de la variable el de la marca de clase.
Aprende a hacerlo
En el estudio del número de televisores por familia de un barrio se ha recogido la información que se muestra en la tabla.
Calcula la moda, la mediana y la media de esos valores.
En el siguiente enlace a un documento OpenOffice.calc puedes ver el cálculo de la media de la actividad anterior. Observa como para totalizar las columnas, se utiliza la función SUMA.
Comprueba lo aprendido
Una empresa envasadora de espárragos blancos quiere estudiar la posibilidad de lanzar al mercado envases de dos tamaños. Uno para productos más grandes, lógicamente de mayor precio, y otro para los elementos más pequeños. Para ello hace un estudio aleatorio del tamaño de espárragos que va envasando, obteniendo los siguientes resultados:
Espárragos. Imagen del ITE en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
Completa la tabla con la frecuencia acumulada, la marca de clase y los valores xi·fi. Después, calcula los parámetros de centralización y contesta a las siguientes preguntas:
a) El intervalo modal es [ , ).
b) El intervalo mediano es [ , ).
c) La media, redondeada a dos decimales, vale .
En la siguiente escena puedes realizar algunos ejercicios de cálculo de la media. Puedes practicar varios ejemplos, tanto para variables discretas como continuas. Utiliza el botón "Discreta/Continua" para seleccionar el tipo y pulsa el botón "Genera" para realizar otro ejercicio.
Ya hemos comentado que uno de los parámetros estadísticos fundamentales es la media. Se utiliza en multitud de ocasiones: muchos elementos se fijan en función de los valores medios que se realizan en estudios y todo parece depender de ella. Por eso no es de extrañar que los parámetros que vamos a ver en esta sección estén todos pendientes de la media. Así por ejemplo, si tenemos una caja de nectarinas, lo normal es que no todas tengan el mismo tamaño y es lógico que nos fijemos en si hay una gran variación entre ellas o son todas parecidas.
Se llaman parámetros de dispersión a una serie de valores que indican lo concentrados o separados están los datos entre sí y respecto a la media.
Nectarinas. Imagen del ITE en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
Se llama recorrido o amplitud del rango a la diferencia entre el valor más pequeño y el más grande que se ha recogido. Nos da una primera idea de si los datos están agrupados o están muy separados, al menos en lo que respecta a los valores menores y mayores.
Aprende a hacerlo
En el estudio del número de hijos por familia de un barrio se ha recogido la información que se muestra en la tabla.
Determina el valor del recorrido o amplitud del rango.
En otro estudio realizado sobre la estatura de los alumnos de una clase se ha obtenido como menor estatura 150 cm y como mayor 170 cm ¿Cuál es el recorrido o amplitud del rango de las estaturas?
Comprueba lo aprendido
En el estudio del peso de distintas piezas de melocotones se ha obtenido un peso mínimo de50 g y un máximo de 85 g. ¿Cuál es el recorrido o amplitud del rango de los pesos?
a) 50 g
b) 35 g
c) 85 g
En el estudio de las ciruelas de una determinada producción se han obtenido los datos del calibre en cm que aparecen en la tabla. El estudio se ha hecho a partir de una muestra de 140 piezas. ¿Cuál es el recorrido o amplitud de rango de los calibres de las piezas de ciruelas estudiadas?
a) 5,5 cm
b) 6 cm
c) 4 cm
Se define la desviación típica a la raíz cuadrada de la media de los cuadrados de las diferencias de las medidas obtenidas con la media de los datos. Se representa mediante la letra griega σ (sigma minúscula). Dicho valor se puede obtener mediante cualquiera de las siguientes expresiones:
La segunda expresión es la que normalmente se suele utilizar ya que, si nos basamos en la tabla de frecuencias, basta añadir una nueva columna correspondiente a xi2·fi y totalizarla.
La desviación típica nos da información sobre cómo se desvían los datos respecto a lamedia, de forma que cuanto mayor sea más alejados están los datos de ella.
Al cuadrado de la desviación típica se le llama varianza, varianza = σ2, que es otro parámetro de dispersión que también se suele utilizar en estadística.
Aprende a hacerlo
Vamos a retomar el ejercicio del número de hijos por familia del barrio. Teníamos la tabla siguiente:
Vamos a calcular su media y su varianza.
Las tres hermanas: la boda de Asunción.
Imagen de Nuria Pérez Cuadrado en el banco de imágenes del ITE
Licencia Creative Commons by-nc-sa
En el siguiente enlace a un documento OpenOffice.calc puedes ver el cálculo de la media y de la desviación típica de la actividad anterior. Observa que hemos introducido dos nuevas funciones:
REDONDEAR(Número a redondear;nº de decimales): redondea un número con el número de cifras decimales que se indique. Por ejemplo, REDONDEAR(5,456;2) redondeará el número 5,456 a dos cifras decimales y por tanto nos devolverá el valor 5,46.
RAÍZ(número) , devuelve la raíz cuadrada del número que se especifique.
En la siguiente escena puedes realizar algunos ejercicios de cálculo de la desviación típica. Puedes practicar varios ejemplos, tanto para variables discretas como continuas. Utiliza el botón"Discreta/Continua" para seleccionar el tipo y pulsa el botón "Genera" para realizar otro ejercicio.