Em quais situações práticas de pesquisa podemos utilizar a ferramenta Estatística Análise de Correlação no auxílio da tomada de decisão;
Os cálculos necessários para a mensuração da correlação entre duas variáveis, bem como a interpretação correta dos resultados obtidos.
Muitas vezes em uma pesquisa, desejamos estudar a relação existente entre duas variáveis quantitativas, como o objetivo de responder a questões como, por exemplo: “quanto maior a temperatura do dia em uma cidade, maior será o consumo de energia elétrica nesta cidade?” ou ainda: “quanto maior o peso de um carro, menor será o rendimento da gasolina?”. Estas questões podem ser respondidas através de uma ferramenta estatística muito importante: Análise de Correlação.
A Análise de Correlação é uma ferramenta estatística que tem por objetivo investigar o grau de relacionamento entre duas variáveis quantitativas. Utilizamos essa análise quando estamos interessados em mensurar o grau de associação entre duas variáveis. Quando duas variáveis estão correlacionadas essa relação pode ser direta (à medida que uma variável aumenta a outra aumenta também ou vice-versa) ou inversa (à medida que uma variável aumenta a outra diminui).
Para estudarmos mais esta ferramenta estatística, vamos contextualizar sua aplicação em um exemplo prático na área da Agronomia. Sabe-se que o clima tem influência direta na relação açúcar e acidez em frutas, pois quanto menor a precipitação, mais rápido o amadurecimento, com maior concentração de açúcar e menor teor de acidez.
Nesse contexto, uma pesquisa conduzida por DE ARAÚJO et al. (2015) teve como objetivo avaliar os efeitos das condições meteorológicas no Brix (escala numérica que mede a quantidade de açúcar ou sacarose em uma fruta) das uvas e acidez nos vinhos obtidos das cultivares Vitis labrusca produzidas em vinhedos. Neste estudo, foram realizadas 27 microvinificações e analisados o Brix das uvas, acidez titulável dos vinhos elaborados e alguns dados meteorológicos como chuva acumulada (CA), horas de sol acumulada (HSA) e temperatura média (TM) foram coletados no período de 7, 15 e 30 dias anteriores à colheita das uvas.
Uma das questões norteadoras desse estudo refere-se à existência ou não de uma relação significativa entre os valores observados de Brix e a quantidade de chuva acumulada (CA) em 30 dias.
Observe o gráfico abaixo que relaciona essas duas variáveis em 27 amostras de uvas das cultivares Isabel e Bordô:
Gráfico 1. Relação entre o Brix e o volume de CA 30 dias em 27 amostras de uvas das cultivares Isabel e Bordô
Podemos observar que maiores valores de Brix correspondem a menores valores de volume de chuva acumulado em 30 dias – essa observação no gráfico apresentado nos permite elaborar a seguinte hipótese de pesquisa: “quanto menor o volume de chuva acumulado em 30 dias, maior será a quantidade de açúcar ou sacarose nas uvas”. Como podemos comprovar essa hipótese? Como as ferramentas estatísticas podem nos auxiliar nessa comprovação? Podemos aqui, nesta situação de pesquisa, realizar uma Análise de Correlação.
De acordo com o Dicionário Aurélio, correlação significa relação mútua entre dois termos, correspondência. Correlacionar significa estabelecer relação ou correlação entre.
Quanto maior for a renda de uma família, maior serão os seus gastos em alimentos?
Qual a relação entre a quantidade de chuva e a safra de feijão de um determinado ano?
Qual a relação entre o empenamento de uma ave (quantidade de penas) e a demanda energética para sua manutenção corporal?
A existência de relação entre as variáveis e o grau de relação é o que caracteriza o objeto da Análise de Correlação e se desejamos correlacionar apenas duas variáveis teremos o caso de uma correlação simples. Já se nosso desejo é correlacionar mais que duas variáveis, devemos fazer uma correlação múltipla. Esta ferramenta estatística, considerada como uma medida de associação, indica a existência ou não de relacionamento entre duas variáveis e se esse relacionamento é forte ou fraco.
A correlação é a relação entre duas variáveis apresentadas por pares ordenados (x e y), sendo que “x” corresponde à variável independente ou variável explanatória e “y” corresponde à variável dependente ou variável resposta.
Os dados para a análise de correlação são provenientes de observações de variáveis aos pares, o que significa que cada observação da amostra é composta por dois valores (x e y). Com esses valores pode-se construir o diagrama de dispersão, que é uma forma de verificar o tipo de correlação existente entre duas variáveis.
Um dos métodos mais usados para a investigação desses pares de dados é a utilização de diagramas de dispersão. Esse tipo de gráfico é construído de forma que cada ponto represente um par de valores observados, onde podemos visualizar empiricamente a relação entre as variáveis x e y, bem como observar se essa relação é forte ou fraca de acordo com a forma em que esses pontos se distribuem.
Vamos voltar ao exemplo anteriormente citado da relação entre o Brix e o volume de chuva acumulada em 30 dias em 27 amostras de uvas das cultivares Isabel e Bordô:
Observe que cada ponto desse gráfico refere-se a um par ordenado x e y ou, ainda, a uma amostra de uva. Na grande maioria das vezes, a relação entre as variáveis não é uma relação perfeita (se assim fosse, os pontos estariam alinhados perfeitamente a uma reta), mas ainda assim podemos visualizar que os pontos “estão próximos a uma reta”, indicando a existência de uma correlação entre as variáveis. Podemos observar aqui que amostras de uvas com menor volume de chuva acumulado em 30 dias possuem maiores quantidades de açúcar ou sacarose.
Por exemplo, podemos relacionar as variáveis altura de plântula de sementes de milho (x) com a seu percentual de germinação (y) – podemos observar uma correlação direta neste exemplo, ou seja, quanto maior a altura de plântula de sementes de milho, maior tende a ser o percentual de germinação.
Por exemplo, ao estudar a relação entre o peso de aves jovens e as reservas de glicogênio (reserva de energia produzida e armazenada pelo nosso corpo através da transformação dos carboidratos que ingerimos em glicose) podemos observar uma correlação negativa ou inversa, ou seja, quanto maior for o peso das aves, menor tende a ser a sua reserva de glicogênio.
O diagrama de dispersão nos fornece uma avaliação inicial do comportamento da relação entre duas variáveis e sua interpretação pode ser muito subjetiva. É necessária a determinação do grau de relação através de uma medida mais objetiva, medindo a sua direção e força e esta medida chama-se Coeficiente de Correlação de Pearson.
O Coeficiente de Correlação de Pearson é uma medida do grau e da direção de uma relação linear entre duas variáveis. O símbolo “ρ” representa o coeficiente de correlação populacional e o símbolo “r” representa o coeficiente de correlação amostral.
Ele foi desenvolvido de forma que o seu resultado é SEMPRE um valor entre –1,00 e +1,00, sendo que quanto mais próximo ele for dos valores extremos (+1 e -1), mais forte é a correlação existente entre as variáveis x e y. Já quanto mais próximo o seu valor for de zero, mais fraca é a relação existente entre as variáveis x e y.
O sinal do Coeficiente de Correlação de Pearson também nos fornece uma informação muito importante referente ao tipo de correlação existente. Se o sinal é NEGATIVO, indica uma correlação INVERSA; já se o sinal for POSITIVO, indica uma correlação DIRETA entre as variáveis.
Sua fórmula é:
Obtenha a soma dos valores de x : Σx
Obtenha a soma dos valores de y: Σy
Multiplique cada valor de x por seu valor y correspondente e obtenha a sua soma: Σx.y
Eleve ao quadrado cada valor de x e obtenha a sua soma: Σx2
Eleve ao quadrado cada valor de y e obtenha a sua soma: Σy2
Use essas cinco somas para calcular o coeficiente de correlação.
Interpretação do Coeficiente de Correlação de Pearson (r )
Se r > 0, indica uma correlação positiva ou direta entre as variáveis, um aumento na variável X provocará um aumento na variável Y.
Se r < 0, indica uma correlação negativa ou inversa entre as variáveis e um aumento na variável X provocará uma redução na variável Y.
Se r = 0, indica a inexistência de qualquer relação ou tendência linear entre as variáveis X e Y.
Considere a seguinte notícia:
Estudo observou os hábitos alimentares dos brasileiros e a relação com a economia.
Fonte: Freepik.
Para a verificação da alegação da notícia acima apresentada, um estudo foi realizado com o objetivo de verificar a relação entre a renda mensal (salários mínimos) e o consumo mensal de arroz (kg) de 8 famílias com 4 integrantes selecionadas aleatoriamente.
Para esse exemplo temos as seguintes informações coletadas junto à amostra das 8 famílias:
Informações importantes:
n = 8 famílias
x = Renda mensal (salários mínimos)
y = Despesa semanal supermercado (reais)
Tabela de cálculos:
Para o Cálculo do Coeficiente de Correlação de Pearson precisamos dos somatórios (Σ) de cada coluna da tabela de cálculos (linha verde da tabela acima). Considere os seguintes resultados calculados:
n = 8 Σx = 25,9 Σy = 26,5 Σx2=88,15 Σy2=95,83 Σx.y=80,54
Interpretação:
Como o Coeficiente de Correlação de Pearson (r) apresenta um valor negativo (r = -0,893), indica correlação inversa/negativa entre a renda mensal e o consumo mensal de arroz, ou seja, quanto maior a renda, menor tende a ser o consumo mensal de arroz.
O símbolo Σx2 significa primeiro elevar ao quadrado cada valor de x e posteriormente somar estes valores elevados ao quadrado.
O símbolo (Σx)2 significa primeiro somar os valores de x e posteriormente elevar a soma obtida ao quadrado.
Os valores encontrados estarão sempre limitados no intervalo -1 a +1. Quanto mais próximo desses extremos (-1 ou +1), mais forte será a correlação entre as variáveis. Por outro lado, quanto mais próximo o coeficiente estiver de zero, mais fraca é a correlação.
Ao utilizarmos esta ferramenta para tomada de decisão, é importante destacar que correlação não implica causalidade, duas variáveis correlacionadas não resultam na interpretação de que uma variável está causando um efeito direto com a outra variável. Podemos ter um cenário em que outras variáveis também possuam relação com a variável resposta, ou seja, também influenciam os resultados. Essa questão deve ser investigada para que possamos compreender na sua plenitude o comportamento das variáveis de estudo.
DE ARAÚJO, Cláudia Marilei Gomes et al. Influência climática em mostos e vinhos da safra 2015. Divulgação ABE, 2016. Disponível em: https://www.researchgate.net/profile/Douglas-Wurz/publication/308765186_Diagnostico_do_enoturismo_na_regiao_dos_Vinhos_de_Altitude_de_Santa_Catarina/links/57eec0a308ae280dd0ad6ac4/Diagnostico-do-enoturismo-na-regiao-dos-Vinhos-de-Altitude-de-Santa-Catarina.pdf#page=66. Acesso em: 08 jan. 2023.
DOMINGUES, O., MARTINS, G. Estatística Geral Aplicada. 4. ed. São Paulo: Atlas, 2011
LARSON, R. e FARBER, B. Estatística Aplicada. 4 ed. São Paulo: Pearson, 2010.
LEVIN, J.; FOX, J.A.; FORDE, D.R. Estatística para ciências humanas. São Paulo: Pearson, 2012.
Coordenação e Revisão Pedagógica: Claudiane Ramos Furtado
Design Instrucional: Gabriela Rossa
Diagramação: Marcelo Ferreira
Ilustrações: Marcelo Germano e Lucas Dias
Revisão ortográfica: Ane Arduim