TESTES DE HIPÓTESES
Prof. Simone Echeveste
Prof. Simone Echeveste
A tomar decisões por meio de um Teste de Hipóteses;
A Interpretar os resultados de um Teste de Hipóteses;
A interpretação e o cálculo dos Testes Diagnósticos;
A interpretação e o cálculo do Risco Relativo.
Em muitos casos de pesquisas, há um interesse em realizar comparações entre grupo de investigação. Essas comparações, inicialmente, são feitas de forma descritiva, por exemplo, por meio do cálculo de médias. Porém, quando desejamos inferir um resultado obtido em uma amostra para toda a população de interesse, é necessária a realização de uma análise inferencial por meio de um teste de hipóteses.
[...] um teste de hipóteses é um processo que usa estatísticas amostrais para testar a afirmação sobre o valor de um parâmetro populacional. Pesquisas na área da saúde e negócios confiam nos testes de hipóteses para a tomada de decisões fundamentais sobre novos medicamentos e estratégias de mercado. (FARBER, 2010)
Em que situações na área da saúde observamos a utilização dessa ferramenta Estatística?
Boni et al. (2005) utilizaram testes de hipóteses para a comparação dos comportamentos de risco para infecção por HIV entre amostras de usuários de cocaína injetável do Rio de Janeiro e de Porto Alegre (veja aqui o artigo na íntegra).
Silva et al. (2009) analisaram, por meio de um teste de hipóteses, os efeitos da infecção causada pelo Toxoplasma gondii sobre a parede do duodeno de gatos. Os autores compararam gatos com cerca de três meses de vida, distribuídos aleatoriamente em um Grupo controle com gatos do Grupo infectado (veja aqui o artigo na íntegra).
Bergman et al. (2005) verificaram as alterações, após o período de um ano, no crescimento e na aptidão física relacionada à saúde de escolares dos sexos feminino e masculino. Para a comparação dos resultados entre meninos e meninas, utilizaram o teste de hipóteses (veja aqui o artigo na íntegra).
Aurichio et al. (2010) compararam, por meio de um teste de hipóteses, o índice de massa corporal (IMC) de idosos entre duas faixas de idade: 60 a 74 anos e 75 anos ou mais (veja aqui o artigo na íntegra).
Veremos, neste capítulo, os principais testes de hipóteses utilizados na área da saúde e outras ferramentas importantes como os testes diagnósticos e o cálculo do Risco Relativo.
Um teste de hipóteses poderia ser descrito por meio de uma estratégia de análise com o seguinte raciocínio:
1º) Descreva o efeito em que está interessado em comprovar em termos de um parâmetro populacional como, por exemplo, uma média ( μ ) ou uma proporção (π);
2º) A Hipótese Nula (H0) é a afirmação de que tal efeito não está presente na população;
3º) Com base nos dados obtidos na amostra, verifique se os valores obtidos estão muito distantes do valor do parâmetro pela hipótese nula; caso afirmativo, os dados evidenciam que a hipótese nula é falsa e que o efeito que está procurando está realmente presente;
4º) O valor de “p” (p-value) representa o nível de significância de um teste e indica a probabilidade de se observar um valor igual ou mais extremo do que o observado se a hipótese nula é verdadeira. Em geral, estipula-se um nível de 5%. O valor da probabilidade de se obter o efeito observado, dado que a hipótese nula é verdadeira, é chamado de p-valor. Se o valor do p-valor for menor que o nível de significância estipulado, assume-se o erro tipo I e rejeita-se a hipótese nula. Ao contrário, se o p-valor for maior, não é assumido o erro tipo I e se aceita a hipótese nula. Os testes podem rejeitar ou aceitar a hipótese nula.
Há dois possíveis tipos de erros quando realizamos um teste estatístico para aceitar ou rejeitar H0:
Erro do tipo I: é o erro ao rejeitar H0 quando, na realidade, H0 é verdadeira. A probabilidade de cometer esse erro do tipo I é designada por α (nível de significância). O erro do tipo I equivale a concluir que o tratamento é eficaz quando na verdade ele não é.
Erro do tipo II: é o erro ao aceitar H0 quando, na realidade, H0 é falsa. A probabilidade de cometer esse erro do tipo II é designada por β.
Em um teste de hipóteses, é obviamente desejável que se reduza ao mínimo as probabilidades α e β dos dois tipos de erros. Porém, a diminuição de se ter um erro implica no aumento de ter um outro erro. Em geral, escolhe-se pela diminuição do erro tipo I. A redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra.
A) HIPÓTESES DE PESQUISA
O primeiro passo consiste em formular hipóteses sobre a afirmação de estudo. As hipóteses estatísticas sempre comparam dois ou mais parâmetros e podem ser classificadas em dois tipos:
Hipótese Nula (H0) estabelece a ausência de diferença entre os parâmetros. É sempre representada por uma igualdade.
Hipótese Alternativa (H1) é a hipótese contrária à H0, geralmente, é a hipótese que o pesquisador quer ver confirmada. É, normalmente, representada por uma desigualdade (mas pode ser também, no caso dos testes unilaterais, representada com os símbolos > ou <).
B) ESTATÍSTICA DO TESTE
A estatística do teste é um valor calculado com as informações provenientes da amostra e utilizado para se tomar a decisão sobre a aceitação ou rejeição da hipótese nula (H0).
C) REGRA DE DECISÃO
Se o valor da estatística do teste cai dentro da região crítica, rejeitamos a hipótese (nula) H0, pois existe uma forte evidência amostral de sua falsidade. Ao contrário, se aceitamos H0, não existe evidência amostral significativa para sua rejeição.
D) CONCLUSÃO EXPERIMENTAL
Após a regra de decisão, o teste deve ter uma conclusão experimental em que o pesquisador, de acordo com o contexto do problema, finalizará a sua análise.
Algumas vezes, existe um particular interesse em decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm a mesma média ou não, ou se o parâmetro populacional tem um valor em particular ou não).
O Teste de hipóteses nos fornece a estrutura para que façamos isso. Ele é útil quando desejamos verificar a alegação (afirmação) feita sobre uma média; configura-se em uma importante ferramenta na tomada de decisão porque é um método científico capaz de validar ou não uma afirmação sobre uma população de estudo.
Aqui, veremos dois dos principais testes de Hipóteses: teste t-student para uma média e teste t-student para comparação entre duas médias. A utilização desses testes permite a análise e posterior tomada de decisão em situações em que são formuladas hipóteses a respeito de uma média.
O QI médio dos indivíduos é de 110 pontos;
A taxa de colesterol média de mulheres é superior à dos homens;
O tempo de tratamento com o medicamento A é inferior ao tempo do medicamento B.
Utiliza-se este teste para comparar os valores obtidos em uma amostra com uma média estabelecida como referência.
Em um debate sobre as estruturas familiares, um psicólogo afirma que, há alguns anos, a idade média em que os filhos saem da casa de seus pais para irem morar sozinhos ou constituírem suas próprias famílias é de 25 anos. Suspeitando que essa realidade tenha nos últimos anos se alterado, um pesquisador resolveu verificar a hipótese de que, nos dias de hoje, os filhos permanecem mais tempo na casa dos pais. Para isso, ele fez uma pesquisa com 400 indivíduos questionando-os a idade em que haviam saído da casa de seus pais, e como resultado foi verificada uma idade média de 32 anos com um desvio-padrão de 5 anos. Analise os dados e conclua a um nível de significância de 5%.
De acordo com a OMS (Organização Mundial de Saúde), um bebê que acaba de nascer possui, em média, um tamanho de 50 cm. Uma amostra de 20 bebês recém-nascidos filhos de mães usuárias de crack foi investigada e uma das variáveis analisadas foi o tamanho do bebê ao nascer. Verificou-se, neste estudo, que os bebês nasceram, em média, com 48,3 cm com um desvio-padrão de 5 cm. Analise esses dados e conclua se podemos afirmar, ao nível de significância de 5%, que bebês filhos de usuárias de crack possuem o tamanho significativamente inferior ao estabelecido pela Organização Mundial de Saúde.
Este teste tem por objetivo comparar as médias provenientes de duas amostras independentes.
Obs.: Em nossa disciplina, vamos trabalhar com os testes bilaterais.
Os dados abaixo representam os escores do grau de qualidade de vida (mensurado por meio do instrumento SF 36 que corresponde a uma escala de 0 a 100 pontos; quanto maior o escore, maior é a qualidade de vida) de dois grupos de idosos: Grupo 1: idosos residentes em casas de repouso; Grupo 2: idosos residentes com a família.
Verifique se existe diferença significativa para o escore médio de qualidade de vida entre os grupos e conclua ao nível de significância de 5%.
O magnésio é um íon predominantemente intracelular, que participa como cofator de mais de 300 reações enzimáticas, dentre elas na atividade da tirosino-cinase. Sua deficiência pode aumentar a resistência periférica à insulina, especialmente em pacientes com síndrome metabólica e diabetes mellitus tipo 2 (DM2). Este trabalho avaliou 18 indivíduos divididos em dois grupos distintos: Grupo 1: portadores de diabetes mellitus tipo 2 e Grupo 2: controle (indivíduos sadios).
Comparação dos níveis de magnésio (Mg) no plasma (mEq/l).
Na área da saúde, é muito comum observarmos fatores de risco que estão associados a uma série de doenças ou ocorrência de determinados fatos de interesse.
Profissionais da área da saúde diariamente deparam-se com diagnósticos sobre patologias, ocorrências de desfechos como o óbito, internação hospitalar, ocorrência de abuso sexual, sintomas associados etc. As pesquisas auxiliam esses profissionais fornecendo insumos importantes para a tomada de decisão frente ao volume de variáveis que podem estar envolvidas no processo de cura, ou ainda na melhoria das condições de vida de um indivíduo.
Uma das importantes ferramentas que podemos dispor desse contexto é o teste de associação Qui-quadrado, que pode ser utilizado quando temos duas variáveis qualitativas (categorias que podem ser dicotômicas, ordinais ou nominais) dos quais suspeita-se que há uma relação de dependência entre elas, ou ainda, que estas estejam relacionadas.
[...] o teste Qui-quadrado é um teste não paramétrico usado para responder perguntas de pesquisa que envolvem taxas, proporções ou frequências. (RODRIGUES, LIMA & BARBOSA, 2017)
Kronbauer e Meneghel (2005) utilizaram o teste Qui-quadrado para associar a ocorrência de violência de gênero a outras variáveis, como idade da mulher, escolaridade da mulher, escolaridade do marido, classe social e anos de união (Veja artigo na íntegra aqui).
Souza et al. (2008), no artigo “Acidentes de trabalho envolvendo mãos: casos atendidos em um serviço de reabilitação”, investigaram a relação entre a ocupação profissional do paciente e o agente causador da lesão por meio do teste de associação Qui-quadrado (Veja artigo na íntegra aqui).
Payad et al. (2015), em seu trabalho de pesquisa “Associação entre o consumo de junk food e a pressão arterial alta e obesidade em crianças e adolescentes iranianos: o Estudo Caspian-IV”, fizeram uso do teste Qui-quadrado com o objetivo de avaliar a existência de uma associação significativa com o consumo de junk food e a hipertensão e obesidade em uma amostra nacional de crianças e adolescentes iranianos (Veja artigo na íntegra aqui).
O teste Qui-quadrado também é um teste de hipóteses utilizado para comparar a distribuição de diversos acontecimentos em diferentes amostras, a fim de avaliar se as proporções observadas desses eventos mostram ou não diferenças significativas ou se as amostras diferem significativamente quanto às proporções desses acontecimentos, ou ainda, pode-se dizer que seu objetivo é verificar se existe associação significativa entre duas variáveis qualitativas.
O método usado é o da comparação, ou seja, comparar um grupo observado com um grupo esperado de frequências.
Para iniciarmos o teste, primeiramente é necessário estabelecermos quais as variáveis que desejamos verificar se estão associadas (x e y).
Após serem definidas, estas deverão ser organizadas em uma tabela cruzada (tabela de contingência), conforme estrutura apresentada a seguir:
Estabeleça as hipóteses do seu teste considerando que:
Ho: Não existe associação significativa entre as variáveis (as variáveis X e Y são independentes e não estão relacionadas).
H1: Existe associação significativa entre as variáveis (as variáveis X e Y não são independentes e estão relacionadas).
Não utilizar quando o número de células com frequência esperada inferior a ‘5’ for superior a 25% do total de células da tabela.
Um estudo foi realizado com o objetivo de investigar se o gênero de um indivíduo está relacionado com a presença de Diabetes Mellitus, suspeita-se que as mulheres tenham uma maior propensão a desenvolver Diabetes Mellitus do que os homens. Porém, deseja-se comprovar, por meio de uma análise estatística, se essa suspeita é realmente significativa.
Um tratamento contra depressão realizado com uma amostra de 78 pacientes teve como objetivo comparar a eficiência de dois medicamentos: Líthum e Imipramina no que se refere à recaída da depressão. Os resultados observados foram:
Analise os dados e conclua ao nível de significância de 5%.
O que são testes diagnósticos?
Na área de Epidemiologia, os testes diagnósticos se referem a distintos procedimentos como, por exemplo, testes de laboratório e exames clínicos. São informações, baseadas na teoria das probabilidades, que indicam as chances do resultado de um exame estar correto.
Em relação a um teste diagnóstico, temos duas questões importantes a serem consideradas: a VALIDADE que corresponde a capacidade do teste em DISCRIMINAR os indivíduos doentes dos não doentes e a CONFIABILIDADE que é a capacidade do teste reproduzir o MESMO resultado ou ter resultado semelhante quando for repetido.
Sobre a VALIDADE, podemos ainda destacar indivíduos que desenvolveram ou não determinada doença. Isso pode ser feito comparando os resultados baseados nos testes diagnósticos com aqueles derivados de um teste mais definitivo, chamado de “padrão ouro”.
Em testes diagnósticos, os dados obtidos são comparados com aqueles derivados do “padrão ouro” e os resultados dessa comparação fornece uma medida de sensibilidade e especificidade.
SENSIBILIDADE (S): é a probabilidade de um teste dar POSITIVO na PRESENÇA da doença, isto é, avalia a capacidade do teste detectar a doença quando ela está PRESENTE.
ESPECIFICIDADE (E): é a probabilidade de um teste dar NEGATIVO na AUSÊNCIA da doença, isto é, avalia a capacidade do teste afastar a doença quando ela está AUSENTE.
Os testes diagnósticos são importantes uma vez que sabemos que dados obtidos em determinados tipos de exames podem emitir resultados errados por diversas razões. Ter o conhecimento da qualidade de um tipo de exame/teste para diagnosticar uma determinada doença é imprescindível para qualquer profissional da área da saúde.
Verdadeiro Positivo (VP): proporção de pacientes com resultados positivos no teste que estão realmente doentes.
Falso Positivo (FP): proporção de pacientes com resultados positivos no teste que NÃO estão realmente doentes.
Falso Negativo (FN): proporção de pacientes com resultados negativos no teste que estão realmente doentes.
Verdadeiro Negativo (VN): proporção de pacientes com resultados negativos no teste que NÃO estão realmente doentes.
Quanto mais sensível um teste, maior seu valor verdadeiro negativo (maior a segurança de que a pessoa com teste negativo não tem a doença) e quanto mais específico um teste, maior seu valor verdadeiro positivo (maior a segurança do médico de que a pessoa com teste positivo tem a doença). O melhor teste diagnóstico seria aquele que identifica poucos falso negativos e falso positivos: alta sensibilidade e especificidade.
Como calcular a Especificidade e a sensibilidade?
Avaliando-se 80 indivíduos para diagnóstico de câncer de laringe, foi utilizado, para diagnóstico, o método de Punção de linfonodo e depois posterior Biópsia (padrão-ouro).
a) Verdadeiro Positivo (VP): 45/80 = 0,5625 x 100 = 56,25%
b) Falso Positivo (FP): 5/80 = 0,0625 x 100 = 6,25%
c) Falso Negativo (FN): 15/80 = 0,1875 x 100 = 18,75%
d) Verdadeiro Negativo (VN): 16/80 = 0,2000 x 100 = 20,00%
e) Especificidade (E):
f) Sensibilidade (S):
Uma amostra de 400 pacientes foi investigada com o objetivo de verificar a qualidade do diagnóstico de pneumonia feito por meio da ausculta em relação ao padrão ouro para esse resultado que é o Rx:
a) Verdadeiro Positivo (VP): 195/400 = 0,4875*100= 48,75%
b) Falso Positivo (FP): 5/400= 0,0125*100 = 1,25%
c) Falso Negativo (FN): 10/400 = 0,0250*100= 2,50%
d) Verdadeiro Negativo (VN): 130/400 = 0,3250*100 = 32,50%
e) Especificidade (E):
f) Sensibilidade (S):
O risco relativo é uma relação da probabilidade de o evento ocorrer no grupo exposto contra o grupo de controle (não exposto). Na Estatística e na Epidemiologia, risco relativo é o risco de um evento (ou de desenvolver uma doença) relativo à exposição.
O cálculo do RR em uma tabela 2x2 é assim definido:
No caso acima descrito, RR = 8,6.
Interpretação: existe 8,6 vezes mais chance de fumantes contraírem câncer de próstata em relação ao grupo de não fumantes.
Veja aqui um artigo que fala um pouco mais sobre probabilidade, risco ou chance.
AYRES, J. R. D. C. M. Sobre o risco: para compreender a epidemiologia. São Paulo: HUCITEC - Humanismo, Ciência e Tecnologia, 1997.
BUSATO, I. M. S. Epidemiologia e processo saúde-doença. Curitiba: InterSaberes, 2016.
CASSENOTE, A. J. F. Principais temas em Epidemiologia para residência médica. São Paulo: Medcel, 2012.
FRANCO, L. J.; PASSOS, A. D. C. Fundamentos de Epidemiologia. Barueri: Manole, 2011.
MEDRONHO, R. A. et al. Epidemiologia. São Paulo: Atheneu, 2008.
RÊGO, M. A. V. Estudos caso-controle: uma breve revisão. Gaz. Méd. Bahia, 2010.
ROBERTO, A. M. et al. (Eds.). Epidemiologia. São Paulo: Atheneu, 2002.
ROCHA, H. A. L.; CARVALHO, E. R. & CORREIA, L. L. ([s.d.]). Conceitos Básicos em Epidemiologia e Bioestatística. Fortaleza: Faculdade de Medicina - Universidade Federal do Ceará. Disponível em: <http://www.epidemio.ufc.br/files/ConceitosBasicosemEpidemiologiae Bioestatistica.pdf>. Acesso em: 20 jan. 2019.
TIETZMANN, D. Epidemiologia. São Paulo: Pearson Education do Brasil, 2014.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Luiz Specht
Diagramação: Marcelo Ferreira
Ilustrações: Marcelo Germano
Revisão ortográfica: Igor Campos Dutra