AMOSTRAGEM E ESTIMAÇÃO
Prof. Simone Echeveste
Prof. Simone Echeveste
A importância do rigor na metodologia em relação ao planejamento amostral de uma pesquisa;
Os principais tipos de amostras e suas características;
A determinar o tamanho mínimo de uma amostra de acordo com o objetivo da pesquisa;
A realizar estimações intervalares e interpretar os seus resultados.
O uso de evidências científicas requer habilidades dos pesquisadores da área da saúde ao exigir que estes associem resultados oriundos de pesquisas na prática clínica para a resolução de problemas. Com isso, os profissionais necessitam saber como obter, interpretar e integrar as evidências com os dados clínicos e preferências do paciente na tomada de decisões na assistência aos pacientes e seus familiares (Mendes, Silveira e Galvão, 2008).
Frequentemente, é necessário a obtenção de conclusões para um conjunto de elementos (população) observando apenas uma parcela desse conjunto (amostra). Esse processo é chamado de INFERÊNCIA ESTATÍSTICA.
Uma das preocupações fundamentais para minimizar o risco de errar ao tomar uma decisão é com a forma de seleção da amostra. O critério a ser utilizado na seleção de elementos deve ser muito cuidadoso para que possamos tomar nossas decisões com níveis de segurança aceitáveis.
Vamos apresentar aqui alguns tipos de amostras mais utilizados na área da saúde. Os tipos de amostras podem ser classificados em dois grandes grupos: probabilísticas e não-probabilísticas.
O planejamento de uma amostra (plano amostral) deve descrever o método a ser utilizado na seleção, bem como determinar qual é a quantidade mínima de elementos que devem ser investigados. VIEIRA (2016) destaca:
“As amostras muito pequenas podem ser excelentes estudos de caso, mas não permitem fazer inferência estatística, talvez você nunca faça um trabalho que exija amostragem, mas muito provavelmente você lerá ou usará resultados de trabalhos cujos dados foram obtidos através de amostragem. Quando você se depara com os resultados de uma pesquisa, você deve sempre perguntar: Qual é a população? Como a amostra foi selecionada? Qual é o tamanho da amostra?”
A partir dos resultados oriundos da coleta de dados, da realização de uma boa análise exploratória destes usando a ESTATÍSTICA DESCRITIVA, avançamos para uma análise mais aprofundada das variáveis de interesse por meio da ESTATÍSTICA INFERENCIAL.
Fornece ferramentas para a obtenção de conclusões sobre uma população de interesse a partir de dados amostrais.
Iremos estudar, neste capítulo, uma das ferramentas de Inferência estatística: os Intervalos de Confiança.
No desenvolvimento de uma pesquisa, devemos estabelecer quem são os elementos de interesse a serem investigados e quais são as características desses elementos que deverão ser observadas. Nesse contexto, o universo dos elementos de interesse tem como denominação POPULAÇÃO.
Em uma grande parte das pesquisas, investigar toda a população de estudo é uma tarefa extremamente trabalhosa, demorada e dispendiosa (às vezes até impossível). Para esses casos, uma AMOSTRA dessa população deve ser criteriosamente selecionada.
A partir de uma AMOSTRA, podemos INFERIR (deduzir) determinados resultados para uma POPULAÇÃO desde que esta seja REPRESENTATIVA do universo do qual foi extraída. Todo esse processo, muitas vezes, resulta em uma série de dúvidas:
O tamanho da amostra utilizado nesse estudo está correto?
Considerando o tamanho da amostra utilizado e o processo de seleção dos elementos participantes do estudo, os resultados estabelecidos têm significância estatística?
Quando eu fizer uma pesquisa científica em minha área de atuação, como saberei qual o tamanho mínimo de amostra que deverei utilizar?
Com a amostra obtida, quais as ferramentas estatísticas que poderei utilizar na análise dos resultados obtidos?
Essas são algumas das dúvidas mais frequentes relacionadas à metodologia de uma pesquisa na área da saúde: questões referentes à DETERMINAÇÃO DO TAMANHO DA AMOSTRA e ao PROCEDIMENTO DE SELEÇÃO dos elementos que farão parte de um estudo são questionamentos extremamente importantes e pertinentes, já que a amostra pode ser considerada como a “coluna vertebral” de uma pesquisa, ou seja, ela corresponde a um dos aspectos da metodologia que dará “sustentação” e “suporte” às conclusões estabelecidas no estudo.
A falta de clareza dos procedimentos na determinação de uma amostra de estudo em uma publicação científica pode ser a maior ameaça na validade dos resultados obtidos, uma vez que a representatividade da amostra é um indicador de qualidade e confiabilidade das conclusões obtidas.
Nesse contexto, é muito importante para o usuário da informação, que está sendo apresentada na metodologia do estudo, o detalhamento para a determinação da amostra investigada. Referimo-nos aqui a dois aspectos relevantes a serem observados: a quantidade de elementos investigados e a forma como estes foram selecionados.
Para a compreensão dos conceitos apresentados, precisaremos ampliar nosso vocabulário e dominar alguns conceitos importantes apresentados no quadro a seguir:
As amostras podem ser de dois tipos: probabilísticas e não probabilísticas. Vejamos agora as características de cada um desses tipos:
É a designação dada a todos os métodos de amostragem que envolvem SELEÇÃO ALEATÓRIA dos elementos, atribuindo a cada elemento da população uma probabilidade de pertencer à amostra.
Podemos destacar as seguintes técnicas de amostragem probabilística:
Amostra Aleatória Simples
Equivale ao sorteio, em que todos os elementos da população têm iguais probabilidades de pertencer à amostra e todas as possíveis amostras têm iguais probabilidades de ocorrer.
Amostra Aleatória Sistemática
Consiste em uma variação da amostra aleatória simples, que tem por objetivo facilitar a obtenção da amostra. Ela é feita selecionando-se elementos em intervalos regulares (a cada dez ou vinte, por exemplo), partindo de um cadastro previamente organizado de acordo com um critério que não tenha relação com a variável de interesse.
Amostra Aleatória Estratificada
É indicada nos casos em que a população é muito heterogênea, ou seja, os elementos possuem características muito distintas entre si, e isso interfere no fenômeno que desejamos investigar. Consiste em dividir a população em grupos (estratos) de tal forma que, dentro de cada estrato, os elementos sejam semelhantes e as diferenças ocorram entre os grupos. Em cada um desses grupos, é selecionada uma amostra (aleatória simples ou sistemática). Por meio desse processo, garantimos que as diferentes características da população serão representadas na amostra.
Amostra Aleatória por Conglomerados
Este tipo de amostragem também trabalha com grupos, mas, ao contrário da estratificada, aqui os grupos já estão naturalmente formados, não por afinidade, mas por proximidade física. Dentro de cada grupo (conglomerado), podemos encontrar as mesmas diferenças que encontramos na população como um todo. A técnica consiste em sortear alguns grupos e, dentro deles, sortear alguns elementos para participar da pesquisa ou até mesmo investigar todos os elementos do grupo.
A amostra aleatória por Conglomerados é bastante comum em pesquisas domiciliares, quando o fenômeno a ser investigado não está relacionado com a classe social. Os conglomerados correspondem aos diferentes quarteirões de um município. Aí são sorteados alguns quarteirões e, dentro deles, é feito o estudo. O objetivo dessa técnica é minimizar o custo e o tempo despendido na coleta de dados.
É o termo utilizado para designar todas as técnicas de seleção amostral que NÃO ENVOLVEM MECANISMOS ALEATÓRIOS, ou sorteios. Essas amostragens são extremamente comuns em pesquisas de opinião.
Podemos citar algumas técnicas não probabilísticas.
Amostra por Conveniência
O pesquisador escolhe, de acordo com a sua conveniência, os elementos que serão investigados. Normalmente, a decisão do pesquisador fundamenta-se em um conhecimento profundo que ele tenha da população, de tal forma que ele possa definir quais elementos representam melhor essa população.
Amostra por Cotas
Tem como objetivo obter uma amostra que tenha características similares às da população. Para fazer isso, o pesquisador deve ter um bom conhecimento sobre a distribuição da população com relação a algumas características que podem interferir no seu estudo, por exemplo, qual o percentual da população com determinada faixa etária ou de determinada classe social. Então, ele vai selecionando elementos para compor sua amostra, até atingir aquele percentual. Esse é o método não probabilístico que se aproxima da técnica probabilística de amostragem estratificada, tendo como diferença a inexistência de um sorteio prévio dos elementos a serem pesquisados.
Amostra de Voluntários
Os elementos da população são informados sobre a realização da pesquisa e decidem fazer parte ou não do estudo. Na área da saúde, esse tipo de amostragem é muito utilizado, principalmente para testes de medicações ou de vacinas. Também vemos esse tipo de amostragem nas pesquisas interativas, muito comuns em programas de debate, nos quais somos convidados a expressar nossa opinião sobre determinado assunto.
Todo o pesquisador que inicia o planejamento de seu estudo, ao desenvolver a metodologia do trabalho a ser realizado, depara-se com uma grande questão: “Qual deve ser o tamanho da minha amostra para que meus resultados tenham validade científica?”
O primeiro passo para determinar o tamanho mínimo de uma amostra é selecionar qual a fórmula mais adequada a ser utilizada e isso depende dos objetivos estabelecidos na pesquisa. De acordo com Callegari-Jacques (2003), não existe um número fixo para o tamanho da amostra que seja válido em todas as pesquisas; para cada caso, há uma solução que depende de:
Tipo de problema que se deseja resolver: deseja-se estimar uma média? Obter uma estimativa para uma proporção? Realizar uma comparação entre grupos?
Tipo de variável envolvida no estudo: quantitativa ou qualitativa?
Magnitude do erro estatístico aceito pelo pesquisador: quanto menor o erro desejado, maior deverá ser a amostra investigada.
Tempo, custos e pessoas disponíveis para realizar a coleta de dados, bem como da dificuldade e complexidade do experimento a ser realizado.
A seguir, iremos apresentar algumas dessas fórmulas para a determinação do tamanho mínimo de uma amostra muito utilizada em estudos na área da saúde. É importante destacar aqui que essas fórmulas contemplam elementos de probabilidade importantes como as distribuições de probabilidade Normal e t-student.
A distribuição normal é uma das distribuições de probabilidade mais utilizadas com o objetivo de representar modelos matemáticos para a ocorrência de fenômenos naturais.
Os parâmetros da Normal são a média (µ) e o desvio-padrão (σ), que permitem infinitas curvas normais com diferentes formatos (mas sempre simétricas). O gráfico da função densidade de probabilidade é apresentado a seguir:
Sua curva de probabilidades tem forma de sino;
A área total sob a curva é igual a 1;
No ponto mais alto na curva, encontra-se a média da distribuição;
A curva é simétrica em relação à média;
O desvio padrão determina a largura da curva. Quanto maior o desvio padrão, mais larga e mais plana tende a ser a curva, mostrando a variabilidade nos dados;
As probabilidades para a variável aleatória normal são dadas por áreas sob a curva.
A distribuição Normal, independentemente dos valores dos parâmetros, apresenta sempre a seguinte relação:
Podemos observar que na distribuição normal as probabilidades em determinados intervalos já são previamente conhecidas independentemente dos valores da média e do desvio-padrão. Por exemplo, quando desejamos observar o intervalo entre média mais ou menos um desvio-padrão (μ ± 1σ), verificamos que há neste intervalo 68,26% das observações, e no intervalo entre a média mais ou menos três desvios-padrão (μ ± 3σ), cerca de 99,73% das observações.
Dessa forma, podemos utilizar esse modelo para obter informações sobre probabilidades de ocorrência de determinados valores para nossa variável de interesse; desde que a variável investigada tenha as característica acima citadas.
Outras probabilidades podem ser obtidas considerando outros valores por meio da tabela de probabilidades da Normal Padrão (Z).
A distribuição Normal exige grandes amostras para a obtenção de suas probabilidades. Quando estamos em um cenário com pequenas amostras (n<30), podemos utilizar a aproximação da distribuição normal: distribuição t-student.
A distribuição t-sutdent tem a mesma forma da distribuição normal simétrica e em forma de sino, porém possui maior variação entre os dados - característica das pequenas amostras.
Na medida em que aumentamos o tamanho da amostra, a distribuição t-student se aproxima da distribuição normal.
Para amostras grandes com mais de 30 casos, os valores são praticamente iguais aos valores da distribuição normal.
Quando desejamos realizar um estudo e um dos objetivos estabelecidos é estimar o valor de uma média, devemos utilizar a seguinte fórmula:
Onde:
s2 - desvio-padrão amostral elevado ao quadrado (esse valor pode ser obtido de duas formas: o pesquisador poderá realizar um teste-piloto e calcular o desvio-padrão dos dados obtidos nesse teste ou poderá utilizar o desvio-padrão apresentado na literatura oriundo de um outro estudo semelhante ao seu que tenha analisado a mesma variável).
- erro admissível de estimação (aqui o pesquisador deverá determinar qual a diferença que ele vai admitir entre o valor da amostra e o verdadeiro parâmetro.
- valor tabelado da distribuição normal considerando um nível de confiança de 95% - neste caso, esse valor será sempre 1,96 de acordo com a tabela de probabilidades da distribuição normal padrão.
Um pesquisador deseja estimar a idade MÉDIA de pessoas que apresentam esporão de calcâneo. O esporão de calcâneo ocorre devido a um crescimento atípico de um segmento do osso do calcanhar, que se forma na parte de baixo desse osso. O objetivo desse estudo é caracterizar pacientes que apresentam essa lesão por meio da idade destes.
Para o planejamento amostral, foi definido que se deseja estar 95% confiante de que a média da amostra obtida (estimativa) estará a menos de 2 anos da verdadeira média populacional (parâmetro).
Para a estimativa do desvio-padrão, esse pesquisador realizou um teste piloto com pessoas que apresentaram essa lesão e verificou um desvio-padrão estimado de 5 anos.
s- desvio-padrão amostral - 5 anos
- erro admissível de estimação estipulado pelo pesquisador em 2 anos.
- valor tabelado da distribuição normal considerando um nível de confiança de 95% - 1,96 (de acordo com a tabela de probabilidades da distribuição normal padrão).
Com isso, a amostra desse estudo deverá contar com no mínimo 24 pessoas que apresentam esporão de calcâneo.
Considere uma situação de pesquisa em que se deseja realizar a estimativa de uma proporção/porcentagem de alguma característica ou ocorrência de interesse. Nesse caso, precisamos de uma fórmula para o cálculo do tamanho da amostra para estimar uma proporção.
Onde:
p - estimativa da proporção da característica de interesse - pode ser obtida na literatura em estudos semelhantes, ou ainda, quando não temos nenhuma pré informação a respeito, recomenda-se utilizar o valor de p como 50% (p=0,50).
- valor tabelado da distribuição normal considerando um nível de confiança de 95% - 1,96 (de acordo com a tabela de probabilidades da distribuição normal padrão).
- erro admissível de estimação (aqui o pesquisador deverá determinar qual a diferença que ele vai admitir entre o valor da amostra (estimativa da proporção) e o verdadeiro parâmetro (proporção populacional).
Deseja-se estimar, na região metropolitana de Porto Alegre, o PERCENTUAL de famílias que possuem crianças em idade escolar. Quantas famílias deverão ser entrevistadas para que tenhamos 95% de confiança em que a porcentagem amostral não terá erro maior que 8 pontos percentuais em relação à verdadeira porcentagem populacional?
Com isso, a amostra desse estudo deverá contar com no mínimo 150 famílias.
Quando realizamos cálculos com a proporção/porcentagem de uma característica, devemos utilizar sempre o VALOR EM DECIMAL, ou seja, sem estar multiplicado por 100. Por exemplo:
20% devemos utilizar na fórmula 0,20 (20 dividido por 100).
5% devemos utilizar na fórmula 0,05 (5 dividido por 100).
As técnicas de Inferência Estatística que iremos estudar partem do pressuposto de que a amostra foi selecionada de forma aleatória simples. Se tiver sido utilizada alguma outra técnica de amostragem probabilística, não há problemas com relação a esse pressuposto, pois as técnicas de amostragem sistemática ou por conglomerados produzem, sob condições gerais, resultados equivalentes a uma aleatória simples, enquanto que a amostragem estratificada produz melhores resultados.
O problema ocorre quando a amostra for não probabilística, o que é bastante comum, na prática. Quando isso ocorre, teoricamente falando, não poderíamos aplicar técnicas de inferência estatística. Esse procedimento acabaria inviabilizando o uso da Estatística em muitas áreas do conhecimento, pois muitas vezes é inviável ou mesmo impossível aplicar alguma técnica probabilística.
Nessas situações, o que se recomenda é um extremo cuidado ao fazer generalizações, respeitando sempre as limitações do estudo, extrapolando os resultados apenas para elementos que tenham características semelhantes àqueles que foram estudados.
Primeiro, precisamos entender dois conceitos:
PARÂMETRO: medida que caracteriza uma população.
ESTIMADOR: medida que caracteriza uma amostra.
Estimar é fazer uma previsão ou uma projeção. É fornecer um valor para um parâmetro desconhecido.
Consiste em construir um intervalo em torno da estimativa por ponto, considerando uma margem de erro.
Conceitos Associados:
Nível de Confiança (1-α)
É a probabilidade de que o intervalo realmente contenha o valor do parâmetro. Deve ser fixado pelo pesquisador. Os valores que são usados com maior frequência são 90%, 95% e 99%.
Nível de Significância (α)
É o complementar do nível de confiança, correspondendo a probabilidade de erro ao se fazer uma estimação.
Erro Absoluto de Estimação (ε)
É a margem de erro do intervalo. Corresponde à distância máxima que se admite, a um dado nível de confiança, entre o valor do parâmetro (desconhecido) e a estimativa obtida a partir da amostra. O erro de estimação pode ser fixado pelo pesquisador.
Para tanto, ele deverá planejar cuidadosamente o seu estudo, determinando o tamanho de amostra que será necessário para obter essa margem de erro. Quando isso não é feito, ele pode ser calculado a partir da amostra coletada e seu valor dependerá: do tamanho da amostra, do nível de confiança desejado e da variabilidade da população.
O intervalo de confiança para uma média populacional tem a forma:
Onde:
Para calcularmos esse erro, é necessária a utilização da seguinte fórmula:
Onde t é o valor obtido em uma tabela de distribuição t, com n-1 graus de liberdade, associado ao nível de confiança desejado.
Em uma amostra de 25 pacientes com enxaqueca que foram tratados com determinado tipo de analgésico, observou-se que o tempo médio que o analgésico levou para começar a fazer efeito foi de 18 minutos, com desvio-padrão de 3,5 minutos.
População: é formada por todas as pessoas que são tratadas com esse analgésico.
Amostra: é composta pelos 25 pacientes com enxaqueca que foram pesquisados.
Variável: tempo que o analgésico levou para começar a fazer efeito, que é uma variável quantitativa.
Parâmetro a ser estimado: tempo MÉDIO que o analgésico leva para começar a fazer efeito, para todos os pacientes que recebem esse tratamento.
Estimativa: uma estimativa por ponto para o parâmetro consiste em dizer que o tempo médio deverá ser de 18 minutos, aproximadamente.
Para iniciarmos os cálculos, devemos obter o valor de t na tabela. Para isso, devemos considerar que estamos trabalhando com 95% de confiança e que n=25. Sendo assim, na tabela t-student:
Logo:
Portanto, o erro máximo de estimação:
ε = 1,44 minutos
Com esse valor, é possível construir o intervalo de confiança para a média populacional:
[18 - 1,44; 18 + 1,44]
[16,56 minutos até 19,44 minutos]
Interpretação: Verifica-se, com 95% de confiança, que o tempo médio que esse analgésico leva para começar a fazer efeito nos pacientes a ele submetidos (população) deve estar entre 16,56 minutos e 19,44 minutos.
Outro Exemplo:
Realizou-se um estudo de delineamento transversal retrospectivo a partir do questionário via e-mail e de prontuários de pacientes de uma clínica especializada em tratamento da obesidade em Belém do Pará. Foram incluídos 59 pacientes de ambos os sexos com idades entre 19 e 67 anos, submetidos a qualquer técnica cirúrgica de obesidade, com comorbidades e que compreenderam plenamente e concordaram livremente com o TCLE.
Um dos resultados apresentados encontra-se na tabela abaixo. Calcule e interprete o Intervalo de Confiança 95% para a perda de peso (kg) em pacientes submetidos à cirurgia bariátrica após 12 meses do pós-operatório.
Interpretação: Estima-se com 95% de confiança que para a perda de peso (kg) em pacientes submetidos à cirurgia bariátrica após 12 meses do pós-operatório esteja entre 30,42 kg e 37,32 kg.
DÚVIDAS DA TABELA T-STUDENT:
1. E se o valor que eu preciso não está na tabela t-student, o que eu faço?
Em alguns casos, ao procurarmos a linha (n-1) na tabela t-student, observamos que a tabela apresenta alguns “saltos” nos graus de liberdade. Nesses casos, devemos sempre procurar O VALOR MAIS PRÓXIMO.
2. E se (n-1) for maior que 200?
Observe que a última linha da tabela é o símbolo ∞ (infinito) - sempre que precisarmos de um valor superior a 200, utilizaremos o resultado da linha ∞.
O intervalo deve ser construído da forma:
Onde:
Z 0,05 = 1,645 (para 90% de confiança).
Z 0,025 = 1,96 (para 95% de confiança).
Z 0,005 = 2,576 (para 99% de confiança).
Exemplo:
Uma pesquisa foi realizada com uma amostra de 400 crianças residentes em uma determinada região do município de Porto Alegre, destas 48 já tiveram catapora. Construa um Intervalo de Confiança 95% para o verdadeiro percentual de crianças com catapora.
Dados do Problema:
População: é formada por todas as crianças de uma determinada região de Porto Alegre.
Amostra: é composta pelas 400 crianças que foram pesquisadas.
Variável: presença ou ausência de catapora, que é uma variável qualitativa.
Parâmetro a ser estimado: incidência de catapora na população, ou seja, o PERCENTUAL de crianças da população que tiveram catapora.
Calculando a respectiva porcentagem na amostra, obtemos p=48/400=0,12=12% (foram observadas 48 crianças em uma amostra de 400 no total).
Portanto, estimamos que 12% das crianças dessa região já tiveram catapora. Essa é a estimativa por ponto, a estimativa por meio de um Intervalo de confiança se dará da seguinte forma:
Esse é o erro máximo de estimação.
Dessa forma, temos o seguinte intervalo:
[12 - 3,2 até 12 + 3,2] = [8,8% até 15,2%]
Interpretação: Estima-se, com 95% de confiança, que entre 8,8% e 15,2% das crianças dessa região (população) já tiveram catapora.
Outro Exemplo:
A Secretaria de Saúde de um município do Rio Grande do Sul, preocupada com o significativo aumento de adolescentes apresentando diagnóstico de doenças sexualmente transmissíveis, realizou um estudo em escolas de ensino médio da região com uma amostra de 800 adolescentes. O objetivo dessa pesquisa era identificar o comportamento sexual dos jovens. Alguns dos resultados obtidos estão apresentados abaixo:
Interpretação: Estima-se com 95% de confiança que o percentual de todos os adolescentes do município que nunca fizeram o teste HIV na vida esteja entre 71,79% e 77,81%.
PDI Ulbra. Plano de Desenvolvimento Institucional, 2017.
ONU - https://nacoesunidas.org/pos2015/. Acesso em: novembro de 2019.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Luiz Specht
Diagramação: Marcelo Ferreira
Ilustrações: Marcelo Germano
Revisão ortográfica: Igor Campos Dutra