MEDIDAS ESTATÍSTICAS
Prof. Simone Echeveste
Prof. Simone Echeveste
Quais são as Medidas Estatísticas descritivas mais importantes em estudos na área da saúde;
Como calcular e como interpretar os resultados das Medidas de Tendência Central e das Medidas de Variabilidade.
A estatística descritiva é considerada a etapa inicial da análise de um conjunto de dados, utilizada para descrever e resumir as informações obtidas em um estudo. Muitas vezes, ao finalizar uma coleta, os pesquisadores deparam-se com uma grande quantidade de dados, surgindo a necessidade do cálculo de algumas MEDIDAS DESCRITIVAS que auxiliem no resumo de toda essa informação.
Para Rodrigo, Lima e Barbosa (2017), a análise estatística apresentada nos resultados dos estudos científicos e posteriormente publicada nos artigos originais permite ao usuário da informação a interpretação de resultados oriundos da coleta de dados realizada, propiciando a utilização dos achados, por exemplo no caso das pesquisas na área da saúde, na melhoria dos serviços de saúde, na descoberta de novos tratamentos, novos medicamentos, novas formas de manejo, de prevenção e diagnósticos. Existe aqui uma grande preocupação em relatar adequadamente os resultados de pesquisas, permitindo a todos os interessados o USO CORRETO da informação apresentada.
Nesse contexto, podemos aprofundar um pouco mais a nossa análise estatística para o caso em que as variáveis analisadas sejam QUANTITATIVAS por meio das medidas estatísticas. Essas medidas dividem-se em dois grupos: as medidas de tendência central e as medidas de variabilidade.
As medidas de tendência central objetivam, por meio de um ÚNICO VALOR obtido, REPRESENTAR todos os demais valores coletados em uma pesquisa; já as medidas de variabilidade revelam como os dados variam em torno desse valor. As principais medidas de tendência central são: a média, mediana e moda. As principais medidas de dispersão são a variância, desvio padrão e coeficiente de variação.
Muitas pesquisas apresentam em seus resultados apenas estatísticas descritivas e, com isso, cumprem com os objetivos propostos. Em outros casos é necessário o uso de testes estatísticos para a comprovação de hipóteses; nesses casos, essas medidas são utilizadas como um passo inicial para a escolha do teste estatístico adequado.
Quando alguém nos diz que a altura média de uma criança de 12 meses é 73,2 cm, significa que a altura de crianças dessa idade foi REPRESENTADA por um valor único; nesse caso, pela média.
As medidas de tendência central são utilizadas para caracterizar um conjunto de valores representando-o de forma adequada. São extremamente importantes quando precisamos de um valor de referência, representativo e que possa ser utilizado para que decisões sejam tomadas a respeito de um conjunto de medidas de interesse. As medidas mais utilizadas com esse propósito nos estudos estatísticos são: média, mediana e moda.
Existem vários tipos de médias, porém a que vamos utilizar aqui é a MÉDIA ARITMÉTICA que corresponde à soma de todos os valores de uma variável dividida pela quantidade de valores considerados (tamanho da amostra investigada).
Notação:
Como calcular:
Onde:
Σx = somatório de todos os valores da variável “x”.
n = tamanho da amostra investigada.
Exemplo:
Um estudo foi realizado com o objetivo de verificar o tempo de tratamento de uma gastrite aguda (em semanas). Para isso, uma amostra de 7 pacientes com essa doença foi investigada apresentando os seguintes tempos: 15, 18, 18, 20, 17, 18, 16. Qual é o tempo médio de tratamento de uma gastrite aguda?
Informações do problema:
Variável (x): tempo e tratamento da gastrite aguda (em semanas).
Amostra (n): 7 pacientes.
Resultados: 15, 18, 18, 20, 17, 18, 16.
Interpretação: “Em média, uma pessoa com gastrite aguda fica em tratamento por 17,4 semanas”.
Quando os dados estão organizados na forma de uma tabela de frequências, devemos multiplicar os diferentes valores “x” pelas respectivas frequências “f”. Isso deve ocorrer, pois a média é a soma de TODOS os valores de uma variável dividida pela quantidade de valores observados. Quando temos uma tabela de frequências – a frequência indica o número de vezes que aquele valor da variável se repetiu e devemos somar esse valor tantas vezes quantas forem a sua repetição – um valor somado “f” vezes pode ser representado por esse valor multiplicado pela sua frequência!
Onde:
x – variável.
f – frequência de cada valor da variável (nº de vezes que cada valor se repetiu).
n – tamanho da amostra.
Exemplo:
Informações do problema:
Variável (x): até que idade a criança recebeu aleitamento materno exclusivo (em meses).
Amostra (n): 62 crianças.
Interpretação: “Em média, essas crianças foram alimentadas exclusivamente com leite materno até os 2,9 meses de idade”.
É o valor considerado o ponto do meio de um conjunto de dados ORDENADO, que a divide ao meio, isto é, metade dos elementos da amostra é menor ou igual à mediana e a outra metade é maior ou igual à mediana.
Notação:
Md ou Me
Como obter a mediana de um conjunto de dados:
1º) Todos os valores do conjunto de dados devem ser colocados em ordem crescente. Se houver algum valor que se repita mais de uma vez, ele deve ser repetido na ordenação também.
2º) Devemos encontrar a posição da mediana considerando a seguinte regra: se o tamanho da amostra (n) é ímpar, a mediana é o valor central; se o tamanho da amostra (n) for par, a mediana será a média dos dois valores centrais.
Exemplo:
Situação 1: quando o tamanho da amostra “n” for ímpar.
“Uma pesquisa foi realizada com o objetivo de verificar o peso (em kg) de 5 cachorros da raça Shetland Sheepdog.”
Informações do problema:
Variável (x): peso (kg).
Amostra (n): 5 cachorros da raça Shetland Sheepdog.
Mediana:
1º) Colocar os valores em ordem crescente.
8,0 8,5 9,1 9,2 9,7
2º) Encontrar o valor central no conjunto de dados.
8,0 8,5 9,1 9,2 9,7
Interpretação: “Metade dos cachorros tem peso de 9,1 kg ou menos e metade dos cachorros tem peso de 9,1 kg ou mais.”
Situação 2: quando o tamanho da amostra “n” for par.
Vamos observar o mesmo exemplo anterior, porém agora vamos considerar um grupo de 6 cachorros da raça Shetland Sheepdog.
Variável (x): peso (kg).
Amostra (n): 6 cachorros da raça Shetland Sheepdog.
Mediana:
1º) Colocar os valores em ordem crescente.
8,0 8,5 8,8 9,2 9,5 9,7
2º) Encontrar os dois valores centrais no conjunto de dados.
8,0 8,5 8,8 9,2 9,5 9,7
3º) Calcular o ponto médio entre esses dois valores centrais (somando os dois valores e dividindo por dois).
Md = 9,0 kg
Interpretação: “Metade dos cachorros tem peso de 9,0 kg ou menos e metade dos cachorros tem peso de 9,0 kg ou mais.”
A moda de um conjunto de dados é simplesmente o valor do conjunto de dados que ocorreu com MAIOR FREQUÊNCIA, ou seja, que MAIS SE REPETIU.
Notação:
Mo
Exemplo:
Os dados apresentados a seguir referem-se ao valor do colesterol (mg/dl) em uma amostra de 8 indivíduos saudáveis maiores de 20 anos:
200 210 200 210
210 250 230 210
Informações do problema:
Variável (x): colesterol (mg/dl).
Amostra (n): 8 indivíduos saudáveis maiores de 20 anos.
Moda = 210 mg/dl (esse valor se repete quatro vezes na amostra, foi o valor de resistência que mais se repetiu).
200 210 200 210
210 250 230 210
Interpretação: “O valor do colesterol que ocorreu com maior frequência foi de 210 mg/dl”.
Algumas situações podem ocorrer em relação à moda:
1ª) Um conjunto de dados pode não ter moda, ou seja, nenhum valor se repetir.
Exemplo: idades de 5 pacientes.
34, 56, 23, 42, 38
Nenhum valor se repete – não tem moda!
2ª) Um conjunto de dados pode ter mais que uma moda, ou seja, poderemos ter mais que um valor da variável se repetindo com frequências iguais.
Exemplo: idades de 8 pacientes:
35, 23, 35, 40, 51, 40, 32, 55
Duas modas: 35 e 40 anos!
Considere o exemplo da renda familiar de um grupo de 20 famílias residentes em duas distintas regiões de vulnerabilidade social: região A e região B:
Observe que em ambas regiões a renda familiar média é de 1 salário mínimo, porém podemos observar uma grande diferença entre as regiões A e B na dispersão das rendas familiares em relação à renda média. Na região A, as rendas estão mais concentradas em torno da média, indicando uma MENOR variabilidade dos dados; já na região B, as rendas estão mais dispersas em relação à média, indicando uma MAIOR variabilidade dos dados.
Tão importante quanto representarmos todos os valores de um conjunto de dados por meio das medidas de tendência central é ter o conhecimento da variação que ocorre em torno dessa medida. As medidas de variabilidade ou ainda medidas de dispersão são extremamente úteis no tratamento de dados, pois estas indicam a variação existente em torno da média. As principais medidas de variabilidade são: variância, desvio-padrão e coeficiente de variação.
A variância corresponde à média dos quadrados dos desvios dos valores em relação à média, quanto maior for a variação dos valores do conjunto de dados, maior será a variância.
Notação:
Fórmula:
No cálculo da variância, pode-se observar que a unidade da variável estudada é elevada ao quadrado, dificultando assim a interpretação de seu resultado final. A solução para esse problema é extrair a raiz quadrada da variância, permitindo assim que se volte à unidade original da variável. Essa nova medida (a raiz quadrada da variância) é chamada de desvio-padrão.
Notação:
Fórmula:
O desvio-padrão corresponde à raiz quadrada da variância. Essa medida expressa a variação média do conjunto de dados em torno da média, para mais ou para menos na mesma unidade de medida da média.
Exemplo:
Os dados apresentados a seguir referem-se ao número de partos normais realizados em um hospital particular em uma amostra de 8 meses:
Informações do problema:
Variável (x): número de partos normais.
Amostra (n): 8 meses.
Média:
Variância:
Desvio-padrão:
Interpretação: “Em média, são realizados 215 partos normais ao mês com uma variação em torno dessa média (desvio-padrão) de 16,9 partos”.
[215 partos ± 16,9 partos]
E quando os dados estão agrupados em uma tabela de frequência, como fazemos o cálculo da variância e do desvio-padrão?
Considere a seguinte tabela referente ao Número de casos registrados de febre amarela em uma amostra de 62 cidades:
Para este exemplo, a média seria:
Agora, vamos calcular a variância e o desvio-padrão. Nesse caso
devemos considerar a frequência de cada valor da variável.
Variância:
Desvio-padrão
Interpretação: “Em média, ocorreram 2,9 casos de febre amarela em cada cidade com uma variação de 1,4 casos”.
[2,9 casos ± 1,4 casos]
Neste momento, poderemos questionar: quando um desvio-padrão é grande e quando ele é pequeno? Na verdade, um desvio padrão pode ser considerado grande ou pequeno dependendo da ordem de grandeza da variável. Por esse motivo, quando desejamos comparar a variabilidade entre métodos, ou ainda entre grupos de valores, é indicada a utilização do Coeficiente de Variação que representa o desvio-padrão expresso como uma porcentagem da média.
Notação:
C.V.: Coeficiente de Variação.
Fórmula:
Exemplo:
Uma equipe de pesquisadores deseja estudar as condições de vida dos habitantes de uma cidade. Devido à dificuldade de pesquisar todos os domicílios, a equipe optou por selecionar aleatoriamente 8 domicílios. Uma das questões de interesse no estudo em questão era o número de pessoas que residem em cada domicílio. Para os domicílios selecionados, obtiveram-se as seguintes informações sobre o número de residentes em cada domicílio: 3 5 4 2 4 4 4 6
Informações do problema:
Variável (x): número de pessoas que residem em cada domicílio.
Amostra (n): 8 domicílios.
Média:
Variância e Desvio-padrão:
Variância
Desvio-padrão:
Interpretação: “Em média, residem 4 pessoas em cada domicílio com uma variação (desvio-padrão) de 1,2 residentes”.
[4 ± 1,2 residentes]
Coeficiente de Variação:
Interpretação: “Existe uma variação em torno da média de 30%”.
MEDRONHO, R. A.; BLOCH, K. V.; LUIZ, R. R.; WERNECK, G. L. Epidemiologia. São Paulo: Atheneu, 2008.
RODRIGUES, C. F. S.; LIMA, F. J. C.; BARBOSA, F. T. Importância do uso adequado da estatística básica nas pesquisas clínicas. Rev. Bras. Anestesiol., Campinas, 2017. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-70942017000600619&lng=en&nrm=iso>. Acesso em: 20 fev. 2020.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Luiz Specht
Diagramação: Lucas Dias
Ilustrações: Marcelo Germano
Revisão ortográfica: Igor Campos Dutra