Os elementos importantes de uma inferência estatística e sua importância na construção de ferramentas estatísticas utilizadas para previsão de resultados;
As diferentes metodologias de seleção da amostra;
A realizar estimações intervalares para parâmetros como a média e a proporção através da construção de intervalos de confiança, bem como realizar a correta interpretação dos mesmos.
Ao realizarmos uma pesquisa, muitas vezes não conseguimos investigar toda a população-alvo de estudo, ou seja, fazer um censo. Dentre os motivos dessa impossibilidade, podemos citar a falta de recursos financeiros, o enorme tempo que isso levaria ou, ainda, por ser impossível investigar todos os elementos da população.
Nesses casos, a alternativa utilizada é a obtenção de uma amostra que seja representativa de todos os elementos da população do qual foi obtida. Quando uma pesquisa/estudo analisa os dados de todo o universo/grupo que ele tenta compreender, dizemos que está trabalhando com a população (chamamos este estudo de Censo). Entretanto, muitas vezes o pesquisador trabalha com tempo, energia e recursos econômicos limitados, tornando possível a análise de apenas parte do grupo de dados retirados da população. Esse grupo denomina-se amostra.
Os resultados obtidos através de uma amostra podem, sob certas condições teóricas, ser generalizados ou, ainda, inferidos para toda a população. A este processo chamamos de inferência. A inferência estatística é o processo caracterizado pela utilização de estimadores (estatísticas obtidas na amostra) para a obtenção de informações acerca da população de estudo.
A estimação é o processo pelo qual utilizamos um valor amostral (estimador) com o objetivo de inferir o seu respectivo valor populacional (parâmetro), podendo ser realizada de duas formas: estimativa pontual ou estimativa intervalar.
Uma estimativa intervalar é construída a partir do cálculo do estimador de interesse ajustado a um erro de estimação e corresponde à uma alternativa sempre muito interessante no processo de estimação, pois permite ao pesquisador considerar em uma estimativa pontual o erro de estimação que pode ocorrer nesse valor.
Ao compreender a importância de critérios científicos para a obtenção de amostras e como se dá o cálculo de estimativas intervalares e sua interpretação, o pesquisador poderá utilizar essas ferramentas em suas pesquisas com o objetivo de tomar decisões mais assertivas.
A Estatística pode ser dividida em duas etapas de análise: a primeira se chama Estatística Descritiva, que contempla as ferramentas de organização, apresentação de dados (tabelas de frequências e gráficos) e medidas descritivas (medidas de tendência central e medidas de variabilidade). Já a segunda parte é denominada Estatística Inferencial, que se refere às ferramentas estatísticas que objetivam a validação e generalização de resultados obtidos em uma amostra para toda a população de estudo.
Frederick Mosteller, estatístico e professor em Harvard disse, certa vez, que é possível mentir usando estatísticas, mas que se mente mais, e melhor, sem estatísticas. É preciso entender que as amostras podem levar a conclusões erradas. Contudo, as opiniões pessoais, sem base em dados, levam, em geral, a conclusões muito mais erradas.
A Probabilidade se apresenta como um estudo teórico de fenômenos envolvendo condições de incerteza. Esses fenômenos, conhecidos como aleatórios, randômicos ou não determinísticos, são aqueles que a sua repetição, em condições idênticas, podem produzir resultados diferentes não sendo possível prever, com exatidão, o que vai resultar no experimento.
A Estatística e a Probabilidade se desenvolveram e construíram o seu corpo de conhecimento inicialmente de forma separada. As origens da Estatística se estabelecem na necessidade da contagem da população e de suas características como uma ferramenta de gestão de governos. Já a Probabilidade tem sua origem nos jogos de azar – em comum podemos destacar que essas duas áreas se preocupavam com a contagem: a estatística na contagem do certo e a probabilidade na contagem do incerto.
A integração desses dois conhecimentos permitiu a incorporação de modelos probabilísticos como suporte na análise de dados provenientes de uma pesquisa, tornando possível um aprofundamento teórico alicerçado na observação e descrição de eventos unido à geração de possíveis cenários fornecidos pelas leis das probabilidades.
Atualmente, não é mais possível pensar em estatística sem pensar em probabilidade. A probabilidade permite tomar decisões e quantificar o erro cometido em cada decisão estabelecida através das ferramentas de Inferência Estatística (inferir, como conceito estatístico, significa generalizar).
Podemos definir a Inferência Estatística como o conjunto de ferramentas estatísticas que têm por objetivo permitir ao pesquisador a generalização das conclusões obtidas de uma amostra para toda uma população. Para podermos generalizar as conclusões obtidas a partir da análise de resultados provenientes de uma amostra para a população, não é suficiente apenas a descrição dos resultados obtidos na amostra, é preciso verificar se essa amostra é efetivamente representativa da população ou, ainda, se as estimativas e inferências realizadas são significativas para toda a população.
A ocorrência de erro é característica no processo de inferência. Ao utilizarmos informações obtidas de uma amostra, sempre existe a possibilidade de cometermos algum tipo de erro na conclusão a partir dos resultados obtidos. O objetivo da Inferência Estatística é fornecer métodos que permitam quantificar esse erro provável.
Vamos conhecer agora dois modelos de probabilidades muito importantes para o entendimento de algumas ferramentas estatísticas que iremos estudar a seguir: Distribuição de probabilidade Normal e Distribuição t-student.
A Distribuição Normal é uma das distribuições de probabilidade mais utilizadas com o objetivo de representar modelos matemáticos para a ocorrência de fenômenos naturais.
Os parâmetros da Normal são a média (µ) e o desvio-padrão (σ), que permitem infinitas curvas normais com diferentes formatos (mas sempre simétricas). O gráfico da função densidade de probabilidade é apresentado a seguir:
Sua curva de probabilidades tem forma de sino;
A área total sob a curva é igual a 1 ou 100%;
No ponto mais alto na curva encontra-se a média da distribuição (μ);
A curva é simétrica em relação à média (μ);
O desvio padrão (σ) determina a largura da curva. Quanto maior o desvio padrão, mais larga e mais plana tende a ser a curva, mostrando a variabilidade nos dados;
As probabilidades para a variável aleatória normal são dadas por áreas sob a curva.
A distribuição Normal, independentemente dos valores dos parâmetros, apresenta sempre a seguinte relação:
Podemos observar que na distribuição normal as probabilidades em determinados intervalos já são previamente conhecidas independentemente dos valores da média e do desvio-padrão. Por exemplo, quando desejamos observar o intervalo entre média mais ou menos um desvio-padrão (μ ± 1σ), verificamos que há neste intervalo 68,26% das observações e, no intervalo entre a média mais ou menos três desvios-padrão (μ ± 3σ), cerca de 99,73% das observações.
Dessa forma, podemos utilizar esse modelo para obter informações sobre probabilidades de ocorrência de determinados valores para nossa variável de interesse – desde que a variável investigada tenha as característica acima citadas. Outras probabilidades podem ser obtidas considerando outros valores através da tabela de probabilidades da Normal Padrão (Z).
A distribuição Normal exige grandes amostras para a obtenção de suas probabilidades. Quando estamos em um cenário com pequenas amostras (n<30), podemos utilizar a aproximação da distribuição normal: distribuição t-student.
A distribuição t-student tem a mesma forma da distribuição normal simétrica e em forma de sino, porém possui maior variação entre os dados – característica das pequenas amostras.
Na medida em que aumentamos o tamanho da amostra, a distribuição t-student se aproxima da distribuição normal.
Para amostras grandes com mais de 30 casos, os valores são praticamente iguais aos valores da distribuição normal.
Utilizaremos no cálculo das ferramentas estatísticas apresentadas a tabela t-student, que nos fornece os valores críticos (valores tabelados) para algumas áreas específicas de interesse na condução da análise estatística a ser realizada. Abaixo, apresentamos uma parte dessa tabela contendo as colunas: graus de liberdade (n-1) e alguns níveis de significância de interesse: 0,05, 0,02 e 0,01, na descrição de cada ferramenta de análise será evidenciado em que momento utilizaremos essa informação na condução dos cálculos necessários.
A seguir, iremos apresentar alguns tipos de amostras mais utilizadas para ajudar o pesquisador a responder algumas questões como por exemplo: "como selecionar a minha amostra?", "qual melhor técnica amostral para atingir o objetivo do meu estudo?"
Investigar toda a população de estudo é uma tarefa extremamente trabalhosa, demorada e dispendiosa (às vezes até impossível). Para esses casos, uma AMOSTRA dessa população deve ser criteriosamente selecionada. A partir de uma AMOSTRA, podemos INFERIR (deduzir) determinados resultados para uma POPULAÇÃO desde que esta seja REPRESENTATIVA do universo do qual foi extraída.
Esses são questionamentos extremamente importantes e pertinentes, já que a amostra pode ser considerada como a “coluna vertebral” de uma pesquisa, ou seja, ela corresponde a um dos aspectos da metodologia que dará “sustentação” e “suporte” às conclusões estabelecidas no estudo.
Neste contexto, é muito importante para o usuário da informação que está sendo apresentada na metodologia do estudo o detalhamento para a determinação da amostra investigada. Nos referimos aqui a dois aspectos relevantes a serem observados: a quantidade de elementos investigados e a forma como eles foram selecionados.
Para a compreensão dos conceitos apresentados, precisaremos ampliar nosso vocabulário e dominar alguns conceitos importantes apresentados no quadro a seguir:
As amostras podem ser de dois tipos: probabilísticas e não probabilísticas. Vejamos agora as características de cada um desses tipos:
É a designação dada a todos os métodos de amostragem que envolvem SELEÇÃO ALEATÓRIA dos elementos, atribuindo a cada elemento da população uma probabilidade de pertencer à amostra. Podemos destacar as seguintes técnicas de amostragem probabilística:
Equivale ao sorteio, em que todos os elementos da população têm iguais probabilidades de pertencer à amostra e todas as possíveis amostras têm iguais probabilidades de ocorrer.
Consiste numa variação da amostra aleatória simples, que tem por objetivo facilitar a obtenção da amostra. Ela é feita selecionando-se elementos em intervalos regulares (a cada dez ou vinte, por exemplo), partindo de um cadastro previamente organizado de acordo com um critério que não tenha relação com a variável de interesse.
É indicada nos casos em que a população é muito heterogênea, ou seja, os elementos possuem características muito distintas entre si e isso interfere no fenômeno que desejamos investigar. Consiste em dividir a população em grupos (estratos) de tal forma que dentro de cada estrato os elementos sejam semelhantes e as diferenças ocorram entre os grupos. Em cada um desses grupos, é selecionada uma amostra (aleatória simples ou sistemática). Através desse processo, garantimos que as diferentes características da população serão representadas na amostra.
Este tipo de amostragem também trabalha com grupos, mas, ao contrário da estratificada, aqui os grupos já estão naturalmente formados não por afinidade, mas por proximidade física. Dentro de cada grupo (conglomerado), podemos encontrar as mesmas diferenças que encontramos na população como um todo. A técnica consiste em sortear alguns grupos e, dentro deles, sortear alguns elementos para participar da pesquisa ou até mesmo investigar todos os elementos do grupo.
É o termo utilizado para designar todas as técnicas de seleção amostral que NÃO ENVOLVEM MECANISMOS ALEATÓRIOS ou sorteios. Essas amostragens são extremamente comuns em pesquisas de opinião. A seguir, apresentamos algumas técnicas de amostragem não probabilísticas:
O pesquisador escolhe, de acordo com a sua conveniência, os elementos que serão investigados. Normalmente, a decisão do pesquisador fundamenta-se em um conhecimento profundo que ele tenha da população, de tal forma que ele possa definir quais elementos representam melhor essa população.
Tem como objetivo obter uma amostra que tenha características similares às da população. Para fazer isso, o pesquisador deve ter um bom conhecimento sobre a distribuição da população com relação a algumas características que podem interferir no seu estudo como, por exemplo, qual o percentual da população com determinada faixa etária ou de determinada classe social. Então, ele vai selecionando elementos para compor sua amostra até atingir aquele percentual. Esse é o método não probabilístico que se aproxima da técnica probabilística de amostragem estratificada, tendo como diferença a inexistência de um sorteio prévio dos elementos a serem pesquisados.
Os elementos da população são informados sobre a realização da pesquisa e decidem fazer parte ou não do estudo. Na área da saúde, esse tipo de amostragem é muito utilizado, principalmente para testes de medicações ou de vacinas. Também vemos esse tipo de amostragem nas pesquisas interativas, muito comuns em programas de debate, nos quais somos convidados a expressar nossa opinião sobre determinado assunto.
A população representa todo o universo de pesquisa de interesse. Todas as estatísticas provenientes do estudo de todos os elementos da população são denominadas parâmetros. O parâmetro corresponde à uma medida numérica que caracteriza uma variável de interesse da população de estudo.
Como já vimos anteriormente, em muitos casos, o estudo de todos os elementos de uma população (denominado de censo) é inviável ou, ainda, impossível de ser realizado. Nesses casos, uma amostra representativa dessa população é selecionada e todas as medidas estatísticas obtidas com a análise dos dados provenientes dessa amostra são chamadas de estimativas.
Temos aqui dois conceitos importantes:
PARÂMETRO: medida que caracteriza uma população.
ESTIMADOR: medida que caracteriza uma amostra.
Estimativa corresponde à uma medida numérica que caracteriza uma variável de interesse da amostra de estudo, obtida com a finalidade de representar/estimar um parâmetro da população do qual foi obtida. A premissa básica da Estimação é a de que não é necessário comermos um bolo inteiro para sabermos o seu gosto. Podemos, a partir de uma parte do bolo, concluir sobre todo ele.
A ideia central da estimação é a de que, uma vez selecionada uma amostra representativa de toda a população, todos os resultados obtidos mediante a coleta de dados realizada com as unidades amostrais podem ser generalizados (inferidos) para toda a população. Nesse contexto, a estimação pode ser definida como:
Processo que consiste no uso de dados da amostra (dados amostrais) para estimar valores de parâmetros populacionais desconhecidos, tais como média, desvio padrão, proporções etc. Estimar é fazer uma previsão ou uma projeção. É fornecer um valor para um parâmetro desconhecido.
Quando realizamos uma estimação, podemos fazê-la de duas formas:
Estimação por ponto é realizada quando calculamos uma estimativa. Por exemplo, para uma média, desvio-padrão ou proporção através de um único valor. Já a estimativa intervalar (intervalos de confiança) configura-se em uma ferramenta estatística em que um intervalo de valores é obtido a partir do uso de estatísticas descritivas e pensamento probabilístico.
Consiste em construir um intervalo em torno da estimativa por ponto, considerando uma margem de erro.
É a probabilidade de que o intervalo realmente contenha o valor do parâmetro. Deve ser fixado pelo pesquisador. Os valores que são usados com maior frequência são 90%, 95% e 99%.
É o complementar do nível de confiança, correspondendo à probabilidade de erro ao se fazer uma estimação.
É a margem de erro do intervalo. Corresponde à distância máxima que se admite, a um dado nível de confiança, entre o valor do parâmetro (desconhecido) e a estimativa obtida a partir da amostra. O erro de estimação pode ser fixado pelo pesquisador.
O intervalo de confiança para uma média populacional tem a forma:
Onde:
Para calcularmos esse erro é necessária a utilização da seguinte fórmula:
Onde:
“t” é o valor obtido em uma tabela de distribuição t, com n-1 graus de liberdade, associado ao nível de confiança desejado.
“s” é o desvio-padrão.
“n” é o tamanho da amostra.
Observe a expressão que determina a margem de erro da média amostral:
Vamos agora apresentar uma situação de pesquisa práticas em que podemos utilizar os intervalos de confiança para uma média.
Um estudo realizado com bovinos Nelore aos 210 dias de idade, considerando uma amostra de 50 animais, apresentou um peso médio de 186 kg com um desvio-padrão 12 kg. Construa e interprete o Intervalo de confiança 95% para o peso médio de bovinos Nelore aos 210 dias de idade.
Cálculo do Intervalo de Confiança 95% para o peso médio aos 210 dias de idade de bovinos da raça Nelore:
Já sabemos a informação de que o peso médio obtido no estudo foi de 186 kg
então agora precisamos calcular o erro da média amostral (ε):
Para isso precisamos de:
Desvio-padrão (s): 12 kg
Tamanho da amostra (n): 50 bovinos
Valor de “t”: devemos considerar aqui a amostra de 50 bovinos e a confiança desejada no intervalo que é de 95%.
O valor de “t” para uma amostra de 50 bovinos e uma confiança de 95% é 2,010. Agora com todas as informações importantes podemos realizar o cálculo do erro da média amostral (ε):
t = 2,010 s= 12 kg n = 50 bovinos
Após calcularmos o erro da média amostral (ε), podemos definir o intervalo de confiança para a média considerando
Interpretação: “Estima-se com 95% de confiança que o verdadeiro peso médio de bovinos aos 210 dias de idade esteja entre 182,6 kg e 196,4 kg.”
O valor que eu preciso não está na tabela t-student
Em alguns casos, ao procurarmos a linha (n-1) na tabela t-student observamos que a tabela apresenta alguns “saltos” nos graus de liberdade. Nesses casos devemos sempre procurar O VALOR MAIS PRÓXIMO.
Quando (n-1) for maior que 200
Observe que a última linha da tabela é o símbolo ∞ (infinito). Sempre que precisarmos de um valor superior a 200 utilizaremos o resultado da linha ∞.
O intervalo deve ser construído da forma:
[p ± 𝜺]
Onde:
Os valores de z (normal padrão) mais utilizados são:
Z 0,05 = 1,645 (para 90% de confiança)
Z 0,025 = 1,96 (para 95% de confiança)
Z 0,005 = 2,576 (para 99% de confiança)
O Seguro Rural visava proteger as colheitas e rebanhos contra a eventualidade de riscos que lhes são peculiares, sua utilização é um estratégica na geração de políticas agrícolas que visam à modernização da agricultura e garantia de sua competitividade. Um estudo foi realizado com uma amostra de 120 propriedades rurais em todo o Brasil com o objetivo de estimar a proporção das que possuem seguro rural. Após a coleta de dados, observou-se que das 120 propriedades rurais apenas 34 possuem esse tipo de seguro. Estime, através de um intervalo de confiança, a verdadeira porcentagem de propriedades rurais no Brasil que possuem seguro rural. Use 95% de confiança.
Dados do Problema
População: é formada por todas as propriedades rurais do Brasil.
Amostra: é composta pelas 120 propriedades que foram pesquisadas.
Variável: presença ou ausência de seguro rural.
Parâmetro a ser estimado: percentual de propriedades que possuem seguro rural.
Calculando a respectiva porcentagem na amostra, obtemos (foram observadas 34 propriedades em uma amostra de 120 investigadas no total):
Portanto, estimamos que 28,3% das propriedades possuem seguro rural. Essa é a estimativa por ponto, a estimativa através de um Intervalo de confiança se dará da seguinte forma:
[p ± 𝜺]
Onde:
p = 0,283 (estimativa da proporção da amostra. Representada de forma decimal, sem multiplicar por 100)
z = 1,96 (valor da tabela de distribuição de probabilidade normal para um intervalo de confiança de 95%. Apresentado anteriormente na explicação inicial dos intervalos de confiança para uma proporção)
n= 120 (tamanho da amostra investigada)
Primeiramente, precisamos calcular o erro máximo de estimação (ε):
Dessa forma, temos o seguinte intervalo:
[p ± 𝜺]
[0,283 ± 0,0805]
[0,283 - 0,0805 a 0,283 + 0,0805]
[0,2025 a 0,3635]
Como estamos estimando aqui uma porcentagem, devemos ao final do cálculo do intervalo multiplicar os valores por 100 e desta forma obtermos o intervalo em percentual:
[20,25% a 36,35%]
Interpretação: “Estima-se, com 95% de confiança, que entre 20,25% e 36,35% das propriedades rurais brasileiras tenham seguro rural”.
DOMINGUES, O.; MARTINS, G. Estatística Geral Aplicada. 4. ed. São Paulo: Atlas, 2011.
JACQUES-CALEGARI, S.M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed, 2003.
LARSON, R.; FARBER, B. Estatística Aplicada. 4. ed. São Paulo: Pearson, 2010.
LEVIN, J.; FOX, J.A.; FORDE, D.R. Estatística para ciências humanas. São Paulo: Pearson, 2012.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Gabriela Rossa
Diagramação: Vinicius Ferreira
Ilustrações: Marcelo Germano e Lucas Dias
Revisão ortográfica: Ane Arduim