A resumir e representar um conjunto de dados através das Medidas de Tendência Central;
A compreender a variabilidade de um conjunto de dados através das Medidas de Variabilidade;
A compreender os procedimentos de cálculo e interpretação das Medidas de Tendência Central e das Medidas de Variabilidade.
O resumo e organização dos dados obtidos em um pesquisa em tabelas e gráficos fornece ao pesquisador um primeiro contato com os resultados obtidos e o auxilia na compreensão inicial dos fenômenos investigados. Essas ferramentas de apresentação de dados, juntamente com as medidas estatísticas, configuram-se na primeira etapa de qualquer estatística: a análise descritiva de dados.
À medida que aprofundamos nossa análise ou, ainda, investigamos mais criteriosamente nossas variáveis, encontramos a possibilidade de novas descobertas e novas relações entre os dados coletados. Neste momento, assumimos uma postura de detetives na busca de evidências, pistas ou, ainda, esclarecimentos que venham ao encontro dos objetivos e hipóteses do estudo que está sendo conduzido.
Nesta perspectiva, podemos utilizar as diversas ferramentas estatísticas disponíveis como meio de aprofundar a análise dos dados obtidos e avançar na busca das respostas às indagações pertinentes a qualquer pesquisa científica. Podemos considerar, então, que após o resumo e organização dos dados em tabelas de frequências e gráficos estatísticos, um segundo momento de análise, quando nossas variáveis são de natureza quantitativa, seria o cálculo e a interpretação de medidas estatísticas descritivas.
Essas medidas dividem-se em dois grupos de medidas: as medidas de tendência central e as medidas de variabilidade. As medidas de tendência central objetivam, através de um único valor obtido, representar todos os demais valores coletados numa pesquisa, enquanto as medidas de variabilidade revelam como os dados variam em torno desse valor. As principais medidas de tendência central são: a média, mediana e moda. As principais medidas de dispersão são a variância, desvio padrão e coeficiente de variação.
Conheceremos cada uma dessas medidas em relação à sua aplicabilidade, cálculo e interpretação dos resultados obtidos e, ao final deste estudo, você deverá ser capaz de calcular e interpretar as medidas estatísticas apresentadas no contexto de uma pesquisa.
A análise descritiva dos dados tem por objetivo a descrição dos resultados de uma pesquisa através de tabelas, gráficos e cálculos de algumas medidas estatísticas. As medidas estatísticas se dividem em dois grupos: medidas de tendência central e medidas de variabilidade.
Muitas pesquisas apresentam em seus resultados apenas estatísticas descritivas e, com isto, cumprem com os objetivos propostos. Em outros casos, é necessário o uso de testes estatísticos para a comprovação de hipóteses e, nestes casos, estas medidas são utilizadas como um passo inicial para a escolha do teste estatístico adequado.
Estas medidas têm por objetivo encontrar a “tendência central” de um conjunto de dados, ou seja, encontrar o valor do meio ou, ainda, os valores típicos de uma distribuição. São medidas úteis para caracterizar e representar um conjunto de dados através de um único valor utilizando critérios distintos para isso. As medidas de tendência central são: média, mediana e moda.
A média é a medida de tendência central mais conhecida e mais utilizada de todas. Existem vários tipos de médias e a que utilizamos em pesquisas é a média aritmética, obtida através da soma de todos os valores da variável investigada (valores de x) dividida pelo número total de valores no conjunto de dados (n).
Sabe-se que a vida útil de uma vaca leiteira é em torno de 10 a 12 anos, dependendo da idade da primeira cria e o intervalo entre o partos e a forma de manejo a que o animal é submetido. Com o objetivo de investigar a vida útil de vacas leiteiras da raça Holandês de uma propriedade, uma amostra de 8 animais foi investigada e observado o tempo de vida útil (em anos) destas. Os dados de cada animal estão apresentados abaixo:
Informações importantes:
Amostra (n): 8 vacas leiteiras
Variável (x): tempo de vida útil (em anos)
Média:
Interpretação: “Em média o tempo de vida útil das vacas leiteiras investigadas é de 10,8 anos.”
Ordenados os elementos da amostra em ordem crescente, a mediana é o valor considerado o ponto do meio, que a divide ao meio, isto é, metade dos elementos da amostra é menor ou igual à mediana e a outra metade é maior ou igual à mediana.
Notação: Md ou Me
Como obter a mediana:
1º) Todos os valores do conjunto de dados devem ser colocados em ordem crescente. Se houver algum valor que se repita mais de uma vez, deve ser repetido na ordenação também.
2º) Devemos encontrar a posição da mediana considerando a seguinte regra: se o tamanho da amostra (n) é ímpar, a mediana é o valor central; se o tamanho da amostra (n) for par, a mediana será a média dos dois valores centrais.
EXEMPLO 1: Quando o tamanho da amostra “n” for ímpar
A acidez natural ou induzida pelo uso inadequado do solo constitui uma das principais limitações para obtenção de altas produtividades das culturas. Um estudo realizado com 5 coletas de solos onde se cultivam pés de feijão mediu a quantidade de Cálcio (Ca) encontrada no solo. Os dados observados em mmolc/dm3 foram:
19,0 19,3 18,1 19,3 17,0
Amostra (n): 5 coletas de solos
Variável (x): quantidade de Cálcio (Ca) em mmolc/dm3
Mediana (Md)
1º) Colocar os valores em ordem crescente
17,0 18,1 19,0 19,3 19,3
2º) Encontrar o valor central no conjunto de dados
17,0 18,1 19,0 19,3 19,3
Md = 19 mmolc/dm3
Interpretação: “Em metade das coletas de solo, a quantidade de cálcio foi inferior a 19 mmolc/dm3 e em metade das coletas de solo a quantidade de cálcio foi superior a 19 mmolc/dm3.”
EXEMPLO 2: Quando o tamanho da amostra “n” for par
Vamos utilizar o mesmo exemplo anterior, porém agora com uma amostra de 6 coletas de solo (n=6)
19,0 19,3 18,1 19,3 17,0 20,0
Amostra (n): 6 coletas de solo
Variável (x): quantidade de Cálcio (Ca) em mmolc/dm3
1º) Colocar os valores em ordem crescente:
17,0 18,1 19,0 19,3 19,3 20,0
2º) Encontrar os dois valores centrais no conjunto de dados:
17,0 18,1 19,0 19,3 19,3 20,0
3º) Calcular o ponto médio entre esses dois valores centrais (somando os dois valores e dividindo por dois):
Md= (19,0+19,3)/2= 19,15 mmolc/dm3
Md = 19,15 mmolc/dm3
Interpretação: “Em metade das coletas de solo a quantidade de cálcio foi inferior a 19,15 mmolc/dm3 e em metade das coletas de solo a quantidade de cálcio foi superior a 19,15 mmolc/dm3.”
A moda de um conjunto de dados é simplesmente o valor do conjunto de dados que ocorreu com maior frequência, ou seja, que mais se repetiu.
Notação:
Mo
De acordo com a Embrapa, um frango está pronto para o abate em média aos 45 dias de vida, quando pesa em torno de 3 kg. Um proprietário de uma granja resolveu investigar o peso de uma amostra de 10 frangos encaminhados para o abate com o objetivo de verificar o peso deles. Os resultados obtidos apresentam-se abaixo:
Amostra (n): 10 frangos
Variável (x): Peso em kg
Mo = 2,8 kg (este valor se repete quatro vezes na amostra, foi o peso que mais se repetiu).
Interpretação: “O peso de frangos para o abate que ocorreu com maior frequência foi de 2,8 kg”.
Tão importante quanto representarmos todos os valores de um conjunto de dados através das medidas de tendência central é ter o conhecimento da variação que ocorre em torno desta medida. As medidas de variabilidade ou ainda medidas de dispersão são extremamente úteis no tratamento de dados, pois indicam a variação existente em torno da média, bem como permitem a comparação entre grupos em relação à suas homogeneidade e heterogeneidade.
Vamos estudar três importantes medidas de variabilidade: variância, desvio-padrão e coeficiente de variação. Para ilustrar a importância dessas medidas, vamos observar o seguinte exemplo:
O ciclo médio total da lavoura de trigo é em torno de 114 dias e a produtividade (sacas/hectare) varia de produtor para produtor. Um estudo realizado em duas propriedades teve por objetivo analisar a produção de trigo (sacas/hectare) em uma amostra de cinco anos em cada uma das propriedades. Os dados obtidos foram:
Propriedade A
Propriedade B
Informações importantes:
Amostra propriedade A: n = 5 anos
Amostra propriedade B: n = 5 anos
Variável investigada (x): produção de trigo (sacas/ha)
Se calcularmos o rendimento médio anual da produção de trigo (sacas/ha) para cada propriedade,teremos os seguintes resultados:
Produção média Propriedade A
Produção média Propriedade B
Observe que, mesmo as médias sendo iguais, ao olhar os valores entre os cinco anos podemos observar que possuem um comportamento bem distinto. A propriedade A possui uma produção mais estável, com valores muito próximos de ano a ano (produção mínima de 130 sacas/ha e produção máxima de 150 sacas/ha); já na propriedade B podemos observar uma grande discrepância nos valores de produção entre os anos (produção mínima de 100 sacas/ha e produção máxima de 170 sacas/ha). Observe a ilustração abaixo:
Figura 1: Comparação da variação da produção de trigo (sacas/ha) em torno da média dos valores observados entre as propriedades.
O fato de a produção média anual das duas propriedades ser igual a 140 sacas/ha pode nos levar à interpretação errônea de que são iguais, mas em uma análise mais completa podemos observar que o comportamento produção média anual entre os cinco anos é bem distinto no que se refere à variabilidade dos valores observados.
A propriedade A apresenta uma MENOR DISPERSÃO em torno da média, ou seja, temos aqui uma maior concentração de valores em torno da média, indicando MENOR VARIABILIDADE quando comparada à propriedade B.
Esse olhar sobre os dados é muito importante para a correta análise do comportamento de uma variável, sendo fundamental para a tomada de decisões. Ao analisar unicamente a média de um conjunto de dados, desconhecendo a variabilidade em torno dessa medida estatística, pode nos levar a cometer erros. Nesse sentido, as medidas de variabilidade, juntamente com as medidas de tendência central, fornecem ao pesquisador resultados mais completos que descrevem com maior precisão as variáveis investigadas.
A variância de um conjunto de dados nos indica a grandeza da dispersão de um conjunto de dados – se o seu valor é pequeno, indica pouca variabilidade entre os valores observados, já se ela representa um valor alto, representa muita variabilidade (discrepância) entre os valores da variável observados. A variância não possui uma interpretação direta e para uma compreensão mais real da variabilidade existente de uma variável quantitativa utilizamos o desvio padrão.
A variância de uma amostra corresponde à média dos quadrados dos desvios dos valores em relação à média: quanto maior for a variação dos valores do conjunto de dados, maior será a variância.
No cálculo da variância, pode-se observar que a unidade da variável estudada é elevada ao quadrado, dificultando, assim, a interpretação de seu resultado final. A solução para esse problema é extrair a raiz quadrada da variância, permitindo que se volte à unidade original da variável. Essa nova medida (a raiz quadrada da variância) é chamada de desvio padrão.
O desvio padrão corresponde à raiz quadrada da variância. Essa medida expressa a variação média do conjunto de dados em torno da média para mais ou para menos na mesma unidade de medida da média.
Vamos retornar ao exemplo sobre a comparação da produção de trigo (sacas/ha) entre duas propriedades:
Informações importantes:
Variável investigada (x): produção de trigo (sacas/ha)
Amostra propriedade A: n = 5 anos
Amostra propriedade B: n = 5 anos
Produção Média propriedade A = 140 sacas/ha
Produção Média propriedade B = 140 sacas/ha
Cálculo do desvio padrão:
Para o cálculo do desvio padrão em cada uma das propriedades A e B, precisaremos verificar a diferença de cada valor observado (de cada ano) em relação à média calculada. Como são 5 anos, essas diferenças elevadas ao quadrado –
– serão somadas (Σ), divididas pelo tamanho da amostra menos 1 (n -1) e o valor final deve ser extraído da raiz quadrada (√ ).
Cálculo do desvio padrão para Propriedade A:
Cálculo do desvio padrão para Propriedade B:
Ao compararmos essas duas propriedades em relação à sua produção de trigo em um período de 5 anos, teremos os seguintes resultados:
Na propriedade A, observamos uma produção de trigo média anual de 140 sacas/ha com uma variação em torno desta média de 7,9 sacas/ha; já na propriedade B, observamos também uma produção de trigo média anual de 140 sacas/ha, porém com uma variação em torno desta média muito maior de 27,4 sacas/ha. Nesse contexto, podemos inferir que na propriedade A a produção de trigo é mais uniforme, com pouca variação de resultados entre os anos; já na propriedade B, a grande variabilidade entre os anos nos indica uma produção com maior instabilidade e menor previsibilidade de resultados.
O coeficiente de variação é a medida estatística mais utilizada pelos pesquisadores na avaliação da precisão dos experimentos, pois ele viabiliza a comparação da precisão dos resultados obtidos sem a necessidade de igualdade de unidades e grandezas das variáveis investigadas. Essa medida estatística expressa a variabilidade de um conjunto de dados desconsiderando a grandeza da variável.
Ao avaliar a dispersão de um conjunto de dados, poderemos questionar, por exemplo: quando um desvio padrão é grande e quando ele é pequeno? Na verdade, um desvio padrão pode ser considerado grande ou pequeno dependendo da ordem de grandeza da variável. Por esse motivo, quando desejamos comparar a variabilidade entre métodos, ou ainda entre grupos de valores, é indicada a utilização do Coeficiente de Variação que representa o desvio padrão expresso como uma porcentagem da média.
Essa medida de variabilidade se destaca em relação às outras, pois tem como diferencial a capacidade de comparar resultados de diferentes trabalhos que envolvem a mesma variável investigada, permitindo quantificar a precisão dos estudos realizados por diferentes pesquisadores.
Notação:
C.V. - Coeficiente de variação
Vamos retornar ao exemplo anteriormente estudado sobre a comparação da produção de trigo (sacas/ha) entre duas propriedades:
Propriedade A
Propriedade B
Ao comparar as propriedades, verificamos que a variação em torno da média da propriedade A foi de 5,6% e na propriedade B foi de 19,6%. Logo, podemos concluir que a produção de trigo da propriedade A é mais HOMOGÊNEA, pois o seu coeficiente de variação foi MENOR.
IMPORTANTE!
MENOR Coeficiente de Variação = dados mais HOMOGÊNEOS
MAIOR Coeficiente de Variação = dados mais HETEROGÊNEOS
Mais um exemplo…
Um estudo realizado com cavalos verificou alguns cuidados especiais em relação às suas refeições. Uma das indicações, por exemplo, é que em todas as refeições ele deve receber forragens e água, sempre na mesma ordem. Primeiramente, dá-se ao animal um pouco de feno para encher o estômago e abrandar a sua fome de tal maneira que, depois de beber água, ele possa comer mais vagarosamente a sua aveia, mastigando-a bem. A água favorece a digestão e a nutrição, sendo imprescindível ao organismo do cavalo. A quantidade que o animal deve ingerir diariamente varia entre 20 e 30 litros, de acordo com o seu tamanho. Nesse contexto, um estudo foi realizado com uma amostra de 7 cavalos com o objetivo de verificar a quantidade de água consumida durante 1 dia (em litros) e os dados observados foram:
25 20 32 30 31 25 21
Informações importantes:
Amostra: n= 7 cavalos
Variável (x): quantidade de água consumida durante 1 dia (em litros)
Cálculo da Média:
O consumo médio de água desses cavalos ao dia foi de 26,3 litros.
Cálculo do desvio padrão:
Para o cálculo do desvio padrão, precisaremos verificar a diferença de cada valor observado (de cada cavalo) em relação à média acima calculada.
Como são 7 cavalos, essas diferenças elevadas ao quadrado –
– serão somadas (Σ), divididas pelo tamanho da amostra menos 1 (n-1) e o valor final deve ser extraído da raiz quadrada (√ ).
Interpretação: “O consumo médio de água desses cavalos ao dia foi de 26,3 litros com uma variação em torno desta média de 4,8 litros”.
Cálculo do Coeficiente de Variação:
Interpretação: “O consumo médio de água desses cavalos ao dia tem uma variação em torno da média de 18,3%”.
LARSON, R. e FARBER, B., Estatística Aplicada. 4. ed. São Paulo: Pearson, 2010.
LEVIN, J.; FOX, J.A.; FORDE, D.R. Estatística para ciências humanas. São Paulo: Pearson, 2012.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Gabriela Rossa
Diagramação: Marcelo Ferreira
Ilustrações: Marcelo Germano
Revisão ortográfica: Ane Arduim