Em quais situações práticas de pesquisa podemos utilizar a ferramenta Estatística Análise de Regressão no auxílio da tomada de decisão;
Os cálculos necessários para a determinação da Equação da Reta de regressão que representa matematicamente a relação entre duas variáveis;
A identificar as situações práticas de pesquisa em que a Análise de Regressão pode ser utilizada na resolução de problemas nas mais diversas áreas de conhecimento, bem como interpretar corretamente os resultados obtidos.
Uma das grandes necessidades de pesquisa nas mais diversas áreas é estabelecer modelos que expliquem as estruturas de um fenômeno de interesse. O modelo de regressão é um dos métodos estatísticos mais usados para investigar a relação entre variáveis.
A relação linear simples entre duas variáveis “x” e “y” pode ser investigada de duas formas: através da Análise de Correlação, onde quantificamos a intensidade dessa relação, e a outra através da Análise de Regressão, onde a forma dessa relação é explicitada.
A Análise de Regressão linear simples estuda o relacionamento entre uma variável dependente (y) e outra variável independente (x). Esse relacionamento é representado por um modelo matemático, através de uma equação que associa a variável dependente com a variável independente. Uma vez caracterizado o comportamento da relação entre as variáveis investigadas x e y, procura-se descrever esta relação sob forma matemática, através de uma função.
A estimação dos parâmetros dessa função ou ainda modelo matemático é o objeto da Análise de Regressão. Esses modelos são extremamente úteis ao pesquisador, pois viabilizarão ao mesmo a realização de previsões, simulações de resultados e estimativas.
Após a verificação do grau de correlação entre duas variáveis através do Coeficiente de Correlação de Pearson, podemos aprofundar a nossa análise com a descrição desta relação através da determinação de uma modelo matemático que a represente.
Nesse sentido, é muito importante ao pesquisador conhecer os efeitos que algumas variáveis exercem, ou que parecem exercer, sobre outras.
Através da ferramenta estatística Análise de Regressão, podemos descrever por meio de uma expressão matemática como se comporta a relação entre as variáveis x e y investigadas e esta informação pode ser utilizada posteriormente para estimar o valor de uma determinada variável dependente (variável resposta) quando conhecemos os valores da variável independente (variável explanatória). Dessa forma, a presença de uma relação entre as variáveis de estudo x e y pode conduzir-nos a um método para estimar uma variável a partir da outra.
As variáveis estudadas x, denominada de variável independente, e y, denominada de variável dependente, possuem sua relação expressa matematicamente por meio de uma equação. Assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente por uma reta.
Para a melhor compreensão dessa ferramenta, vamos analisar um exemplo prático da sua utilização na área da Agronomia:
Vamos considerar um estudo realizado com vacas leiteiras que tem por objetivo analisar a relação da nutrição com a produção de leite. Sabe-se que na alimentação de vacas leiteiras o consumo de matéria seca e sua digestibilidade são importantes para a garantia de uma boa produção de leite e, consequentemente, melhor desempenho animal.
Neste contexto, um estudo foi conduzido com o objetivo de analisar a relação entre as variáveis produção de leite em Kg/dia (y) e o nível de proteína da ração consumida em % (x) em uma amostra de 10 vacas leiteiras (n=10). Os dados observados encontram-se na tabela abaixo:
Em um primeiro momento, vamos analisar a relação entre essas variáveis através da construção do Diagrama de dispersão, que representa através de um gráfico a relação entre elas:
No diagrama de dispersão podemos observar através dos pares ordenados (x,y), sendo x = nível de proteína da ração consumida em % e y= produção de leite em Kg/dia o comportamento destas variáveis para cada uma das 10 vacas investigadas (observe no gráfico que temos 10 pontos azuis que representam as informações de cada uma das 10 vacas).
Podemos observar nesse gráfico que os pontos azuis seguem um sentido crescente e que podem ser agrupados em torno de uma reta (marcada em vermelho no gráfico). Entretanto, observamos que a “nuvem de pontos azuis” que se forma no entorno dessa reta não corresponde perfeitamente ao alinhamento dela, pois há uma distância entre os pontos do diagrama e a reta determinada pelo modelo matemático.
Isso pode ser explicado considerando que o que está em estudo não é um fenômeno matemático e sim um fenômeno natural, aleatório de um processo que provavelmente sofre influências de outras variáveis relacionadas à produção de leite que, nesse exemplo, não são consideradas nesta investigação.
A reta de regressão é formada pelos pontos da média da relação entre as variáveis x e y, em que ui representa a distância entre o valor observado da variável (y) e a média. Destacamos aqui também que variáveis altamente correlacionadas possuem uma maior concentração dos pontos em torno da reta de regressão, e que a inclinação da reta corresponde ao tipo de correlação existente entre as variáveis: inclinação da reta positiva indica uma correlação direta; inclinação da reta negativa indica uma correlação inversa entre as variáveis x e y.
Na Análise de regressão, as variáveis estudadas “x” e “y” são denominadas:
x - variável independente (ou variável explanatória)
y - variável dependente (ou variável resposta).
Os Modelos de Regressão linear simples são modelos matemáticos que relacionam o comportamento de uma variável “y” com uma variável “x” através de uma função:
Y = a + b (X)
Nesse modelo, a variável “x” é a variável independente da equação enquanto y = f(x) é a variável dependente das variações de “x”. Poderemos utilizar seus resultados para: previsão (prever o valor de y a partir do valor de x) e estimação (o quanto x influencia ou modifica y).
A determinação de uma reta de regressão permitirá ao pesquisador a realização de previsões e análise de possíveis cenários em uma investigação, uma vez que ao determinar a expressão matemática que traduz a relação entre as variáveis será possível, a partir da determinação de valores para a variável x (explanatória), obter o valores para a variável y (resposta). Dado um valor de X, este será usado para prever o valor de Y.
Como os valores de X são conhecidos, resta-nos estimar os valores dos coeficientes a e b. Os valores de a e b serão determinados através do Método dos Mínimos Quadrados (MMQ), aplicado na amostra selecionada, utilizando-se as seguintes fórmulas:
A importância da construção de um modelo matemático que represente a relação entre duas variáveis deve-se ao fato de que após a construção do modelo podemos realizar previsões e simulações, ou seja, uma vez estabelecida a relação entre “x” e “y”, podemos estipular diferentes valores para “x” e observar o comportamento da variável “y”. Por exemplo, poderíamos prever o gasto mensal em energia elétrica de acordo com o número de integrantes de uma família.
O coeficiente angular “b” da reta de regressão mede a direção e a magnitude da relação. A magnitude da inclinação da regressão pode ser lida como segue: para cada acréscimo unitário na variável (x), a variável dependente aumentará/diminuirá “b” unidades de y.
Quando as duas variáveis estão correlacionadas positivamente, a inclinação (valor de b) também será positiva, enquanto quando as duas variáveis estão correlacionadas negativamente, a inclinação (valor de b) será negativa.
Vamos retomar o estudo anteriormente apresentado com vacas leiteiras que tem por objetivo de analisar a relação entre as variáveis produção de leite em Kg/dia (y) e o nível de proteína da ração consumida em % (x) em uma amostra de 10 vacas leiteiras (n=10). Os dados observados encontram-se na tabela abaixo:
Para esse exemplo temos as seguintes informações:
n = 10 vacas
x = Nível de proteína da ração (%)
y = Produção de leite (kg/dia)
Informações na tabela de cálculos acima que precisamos para o cálculo dos coeficientes “a” e “b” da equação da reta de regressão:
n = 10 Σx = 174 Σy = 140 Σx2=3294 Σy2=2021 Σx.y=2552
2º) Calcular o valor do coeficiente “b” da Reta de Regressão:
3º) Calcular o valor do coeficiente “a” da Reta de Regressão:
4º) Através dos cálculos dos coeficientes “a” e “b” (a = 6,34 e b= 0,44), determinar a Reta de Regressão:
Y = a + b (X)
Qual será a produção de leite estimada de uma vaca que foi alimentada com uma ração que possui 22% de proteína?
Neste caso, estamos determinando o valor de x= 22% e desejamos estimar qual será valor de y = produção de leite (kg/dia), para isso basta substituirmos os dados na Equação da Reta obtida:
y = 6,34 + 0,44 x
y = 6,34 + 0,44 (22) = 16,02 kg/dia
Estima-se que para uma vaca alimentada com uma ração com 22% de proteína tenhamos uma produção de 16,02 kg/dia.
Vamos estudar agora outro exemplo da aplicação da Análise de Regressão. Considere um estudo realizado com o objetivo de verificar a relação entre a renda mensal (salários mínimos) e o consumo mensal de arroz (kg) de 8 famílias com 4 integrantes selecionadas aleatoriamente. Para este exemplo temos as seguintes informações, coletadas junto à amostra das 8 famílias:
Já sabemos que essas variáveis estão correlacionadas e precisaremos agora, para um panorama melhor sobre a situação pesquisada, descrever matematicamente como essa relação se comporta. A ferramenta estatística a ser utilizada para esse propósito é a Análise de Regressão.
Para este exemplo, temos as seguintes informações:
n = 8 famílias
x = Renda mensal (salários mínimos)
y = Consumo mensal de arroz (kg)
n = 8 Σx = 25,9 Σy = 26,5 Σx2=88,15 Σy2=95,83 Σx.y=80,54
2º) Calcular o valor do coeficiente “b” da Reta de Regressão:
3º) Calcular o valor do coeficiente “a” da Reta de Regressão:
4º) Através dos cálculos dos coeficientes “a” e “b” (a = 6,73 e b= -1,06), determinar a Reta de Regressão:
Y = a + b (X)
Observe aqui que o valor de “b” é negativo, pois a correlação entre as variáveis renda mensal e consumo de arroz é inversa, ou seja, quanto maior a renda, menor o consumo de arroz. Veja o diagrama de dispersão:
Y = a + b (X)
Neste caso, estamos determinando o valor de x= 2 salários mínimos e desejamos estimar qual será valor de y = consumo de arroz (kg). Para isso basta substituirmos os dados na Equação da Reta obtida:
y = 6,73 - 1,06 x
y = 6,73 -1,06 (2) = 4,6 kg
Estima-se que para uma família de 4 integrantes com renda mensal de 2 salários mínimos o consumo de arroz mensal seja de 4,6 kg.
DOMINGUES, O.; MARTINS, G. Estatística Geral Aplicada. 4. ed. São Paulo: Atlas, 2011
LARSON, R.; FARBER, B. Estatística Aplicada. 4. ed. São Paulo: Pearson, 2010.
LEVIN, J.; FOX, J.A.; FORDE, D.R. Estatística para ciências humanas. São Paulo: Pearson, 2012.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Gabriela Rossa
Diagramação: Marcelo Ferreira
Ilustrações: Rogério Lopes e Lucas Dias
Revisão ortográfica: Ane Arduim