1.8 Representaciones gráficas de resultados: diagramas de barras, pie, histograma de frecuencias, diagramas de dispersión, cajas.

Introducción

 Una vez recolectados los datos, éstos pueden consolidarse y resumirse para mostrar la siguiente información:

• ¿Qué valores de la variable han sido medidos?

• ¿Con qué frecuencia se presenta cada uno de los valores?

Para este fin, se puede construir una tabla estadística que se puede usar para mostrar los datos gráficamente como una distribución de datos.

El tipo de gráfica que se escoja depende del tipo de variable que se haya medido.

Cuando la variable de interés es cualitativa, la tabla estadística es una lista de las categorías siendo consideradas junto con una medida de la frecuencia con que se presenta cada valor.

Se puede medir “la frecuencia” en tres formas diferentes:

• La frecuencia o número de mediciones en cada categoría

• La frecuencia relativa o proporción de mediciones en cada categoría

• El porcentaje de mediciones en cada categoría

 

Definición

Algunas Gráficas para Datos Cualitativos

(a)           Una gráfica de pastel es la conocida gráfica circular que muestra la forma en que están distribuidas las medidas entre las categorías.

(b)          Una gráfica de barras muestra la misma distribución de medidas en categorías, con la altura de la barra midiendo la frecuencia con la que se observa una categoría en particular.

Ejemplo

Una bolsa de tamaño botana de dulces contiene 21 dulces con los  colores de la tabla de abajo. 

La variable “color” es cualitativa, por lo que la segunda tabla  pone en lista las seis categorías junto con un total del número de dulces de cada color. Las últimas tres columnas de la segunda tabla  dan las tres diferentes medidas de frecuencia con qué  se presenta cada categoría. Como las categorías son colores y no tienen un orden particular, se pueden construir gráficas de barras con muchas formas diferentes con sólo reordenar las barras. Para enfatizar que el café es el color más frecuente, seguido por el azul, verde y anaranjado, ordenamos las barras de mayor a menor y generamos la gráfica de barras usando el programa R.

Solución

#Gráficas para datos Cualitativos

#Datos

Color <- c(6,3,3,2,2,5)

names(Color) <- c('Café','Verde','Anaranjado','Amarillo','Rojo','Azul')

 

#################

#Gráfica de Pie#

 

pie(Color, col=gray(seq(0.2,1.0,length=8)))

 

#####################

#Gráfica de barras

barplot(Color,ylab="Número de dulces", xlab="Colores")

Nota

Una gráfica de barras en la que las barras están ordenadas de mayor a menor se denomina gráfica de Pareto.

 

Definición

Algunas gráficas para datos cuantitativos

(a)           La gráfica más sencilla para datos cuantitativos es la gráfica de puntos.

(b)     Otra forma sencilla de exhibir la distribución de un conjunto de datos cuantitativos es la gráfica de tallo y hoja.

 

Ejemplo

Los datos de la siguiente tabla  son los pesos (en libras) de 30 bebés de gestación completa al momento de nacer, nacidos en un hospital "X".

7.2 7.8 6.8 6.2 8.2

8.0 8.2 5.6 8.6 7.1

8.2 7.7 7.5 7.2 7.7

5.8 6.8 6.8 8.5 7.5

6.1 7.9 9.4 9.0 7.8

8.5 9.0 7.7 6.7 7.7

 Construya una gráfica puntos y una  gráfica de tallo y hoja para mostrar la distribución de los datos.

Solución

(a)           En R, capturamos los datos de la siguiente manera:

bebes <- c(7.2,8.0,8.2,5.8,6.1,8.5,7.8,8.2,7.7,6.8,7.9,9.0,6.8,5.6,7.5,6.8,9.4,7.7,6.2,8.6,7.2,8.5,9.0,6.7,8.2,7.1,7.7,7.5,7.8,7.7)

Definimos un vector de tamaño 30, como sigue:

x <- 1:30

Finalmente ejecutamos la siguiente instrucción para graficar puntos:

 

plot(x,bebes)

 

 

 

(b)          Para la gráfica de tallo y hoja, ejecutamos el siguiente comando:

 

stem(bebes)

 

 

5 | 68

  6 | 12

  6 | 7888

  7 | 122

  7 | 557777889

  8 | 0222

  8 | 556

  9 | 004

 

Definición

Un histograma de frecuencia relativa, para un  conjunto de datos cuantitativo es una gráfica de barras en la que la altura de la barra muestra “con qué frecuencia” (medida como proporción o frecuencia relativa) las mediciones caen en una clase o subintervalo particular.

Ejemplo

Graficar un histograma usando los datos de los bebés del ejemplo anterior.

Solución

Usando R;  

hist(bebes,main="Histograma",ylab="Número de bebes", xlab="Peso")

Definición

Un diagrama de caja es un resumen gráfico de los datos con base en el resumen de cinco números (xmin,1er Cuartil, Mediana, 3er Cuartil, xmax).

La clave para la elaboración de un diagrama de caja es el cálculo de la mediana y de los cuartiles Q1 y Q3. También se necesita el rango intercuartílico, RIC= Q3 - Q1. 

Pasos para elaborar un diagrama de cajas

1. Se dibuja una caja cuyos extremos se localicen en el primer y tercer cuartiles.

2. En el punto donde se localiza la mediana se traza una línea vertical.

3. Usando el rango intercuartílico, RIC=Q3 – Q1, se localizan los límites. En un diagrama de caja los límites se encuentran 1.5(RIC) abajo del Q1 y 1.5(RIC) arriba del Q3.

4. A las líneas punteadas que se observan en la figura de caja se les llama bigotes. Los bigotes van desde los extremos de la caja hasta los valores menor y mayor de los límites calculados en el paso 3.

5. Por último mediante un asterisco se indica la localización de las observaciones atípicas.

Ejemplo

Graficar un diagrama de caja para los datos de bebés.

 

Solución

 

En R, ingresamos:

fivenum(bebes)

 

con lo que obtenemos cinco números, los números de los extremos son el mínimo y el máximo, el segundo y cuarto son el primer y tercer cuartil, y el tercer valor es la mediana.

 

Finalmente ingresamos la siguiente instrucción:

 

boxplot(bebes, ylab="Peso (en libras)", col="green") 

Nota

Interpretación de las graficas

 

Primero, verificar las escalas horizontales y verticales, de manera que haya claridad respecto a lo que se mide.

• Examinar el lugar de la distribución de datos. ¿Dónde está el centro de distribución del eje horizontal? Si se comparan dos distribuciones, ¿están centradas en el mismo lugar?

• Examinar la forma de la distribución. ¿La distribución tiene un “pico”, un punto que es más alto que cualquier otro? Si es así, ésta es la medición o categoría que se presenta con más frecuencia. ¿Hay más de un pico? ¿Hay un número aproximadamente igual de mediciones a la izquierda y derecha del pico?

• Buscar cualesquiera mediciones poco comunes o resultados atípicos. Esto es, ¿hay mediciones mucho mayores o menores que todas las otras? Estos resultados atípicos pueden no ser representativos de los otros valores del conjunto.