Esse é um BoxPlot
Por Gregório Unbehaun Leal da Silva, em 26/01/2022
Bom dia, boa tarde, boa noite....
No texto de hoje vamos falar sobre BoxPlot e apoio à Jair Bolsonaro na microrregião catarinense do Alto Vale do Itajaí. Essa região foi escolhida por sua especificidade: apoio muito acima da média ao presidente eleito em 2018.
BoxPlot ou diagrama de caixa é um tipo de gráfico muito útil para se entender dados como os que vamos lidar aqui.
Se você está familiarizado com o conceito de boxplot, ou não quer ler a explicação, pode pular para seção Análise de Dados.
Em outro momento nesse mesmo site, já apresentamos o conceito de forma mais detalhada. Por ora, nos convém apresentar os significados dos diagrama.
Imaginemos um conjunto de números hipotético (1,2,3,4,6,8,9,11,12,13,14)
Eis o significado de cada termo da imagem acima , utilizando nosso conjunto de números hipotético:
Máximo - o valor maior, ou seja 14
Mínimo - o menor valor, ou seja 1
Mediana o valor do meio (linha branca) ou seja = (1,2,3,4,6,8,9,11,12,13,14) = 8 - obs= caso a série tivesse um número par de casos, seria a média dos dois valores do meio (exemplo em 1,2,3,4,5,6.... Os valores medianos são 3 e 4, logo (3+4)/2 = 3,5),
Média - representada na imagem pelo símbolo + - é basicamente o resultado da soma de todos os numeros, dividido pela quantidade de casos, no nosso exemplo de cima, seria: (1+2+3+4+6+8+9+11+12+13+14)/11 = 7,54
Q1 - primeiro quartil - Trata-se dos primeiros 25% ou 1/4 dos casos, os de menor valor. Existem dois métodos de absorver o quartil, o software utilizado aqui adota a técnica Método exclusivo. O valor obtido é de 3,5 . Não vou encher você caro leitor de fórmulas matemáticas maçantes, se quiser saber como se chega nesse resultado (clique aqui)
O terceiro quartil, ou Q3, representa a marca dos 75% casos menores. A fórmula de cálculo é a mesma do Q1 e o valor é de 11,5.
AMPLITUDE INTERQUARTÍLICA - As quantidades Q1 − 1.5 ∗ IQR e Q3 + 1.5 ∗ IQR delimitam as cercas inferior e superior, respectivamente, e constituem limites para além dos quais, como visto, os dados passam a ser considerados outliers. IQR é uma medida de dispersão, não vou encher o nobre leitor com mais fórmulas.
Os outliers serão os valores fora de Q1-1.5*(Q3-Q1) e Q3+1.5*(Q3 -Q1). -
O retângulo contém 50% dos valores do conjunto de dados. A posição da linha mediana no retângulo informa sobre a assimetria da distribuição.
Uma distribuição simétrica teria a mediana no centro do retângulo. Se a mediana é próxima de Q1, então, os dados são positivamente assimétricos.
Se a mediana é próxima de Q3 os dados são negativamente assimétricos.
O comprimento das linhas fora do retângulo (algumas vezes chamadas de whisquers) informam sobre a cauda da distribuição.
FONTES:
https://www.escolaedti.com.br/o-que-e-um-box-plot
https://sapientia.ualg.pt/bitstream/10400.1/2963/1/SFernandes_MMPinto_quartis_no_ensino.pdf
No que se segue utilizamos dados da porcentagem de votos válidos obtida por Jair Bolsonaro em 2018 no segundo turno em 28 cidades da região do Alto Vale. Em todas as cidades da amostra a votação foi acima do obtida no país e no estado de Santa Catarina (o que mais votou em Bolsonaro).
Sendo a cidade nossa unidade de análise, lidamos com 28 números, o Box Plot da distribuição segue abaixo:
A mediana da distribuição da imagem acima é 81.72.
Uma boa notícia é que não temos outliers. Ou seja, não temos nenhum caso muito destoante, fora da amplitude interquartílica. Essa é uma vantagem de análises do nosso tipo, já que estamos interessados no apoio político de uma determinada região com determinadas características.
O valor mínimo foi de 67,84% (a cidade de José Boiteux). Como esse ainda é um valor alto (acima do obtido por Bolsonaro tanto a nível estadual como nacional), decidimos dividir os dados e criar dois níveis de apoio à Bolsonaro - Alto e Muito Alto -.
O valor da mediana marca o pertencimento a um outro grupo. Os valores menores do que 81,72 % pertencem ao grupo Alto e os valores maiores que a mediana pertencem ao grupo Muito Alto. Cada grupo - Alto e Muito Alto - tem 14 cidades.
Ps. nesse link é possível obter a lista completa das cidades e a qual grupo pertencem
E a partir disso criam-se BoxPlots que propiciam comparações com base nos dados censitários e políticos das cidades. Isso torna possível que se possa visualizar determinantes da pertença a um ou outro grupo.
Até agora explicamos os conceitos e ideias por trás da análise....
Aqui que a brincadeira começa a ficar interessante. Siga-me os bons...
Nas eleições gerais Bolsonaro saiu derrotado nas menores cidades. No nosso universo de 28 cidades, as menores tendem a dar menos apoio, seguindo a lógica nacional. Em todos os BoxPlots rodamos um teste de significância p-value e nesse caso a diferença entre Alto e Muito Alto é estatisticamente significativa.
Cidades com maior área rural são as que apoiam menos Bolsonaro, isso é verdade no conjunto dos 28 municípios analisados aqui. Cidades com apoio Alto tem em média 60,7% de área rural. Já cidades com apoio a Muito Alto tem média de 39,78%. As diferenças entre os níveis de apoio são estatisticamente significantes.
Idosos tenderam a votar mais em Bolsonaro no Brasil, no entanto em nossa amostra esse dado não se mostrou estatisticamente significativo.
Os evangélicos votaram em massa em Bolsonaro. Esse não foi o caso, porém no Alto Vale, uma vez que esse dado não se mostrou estatisticamente significativo. É destoante a presença de dois outliers. As cidades de José Boiteux e Vitor Meirelles (os dois pontinhos no grupo Alto) têm muito mais evangélicos que as outras e são outliers que potencialmente prejudicam a análise. No entanto, quando rodamos o teste de significância sem esses casos, também não foi encontrado significância estatística. Indicando não haver relação entre religião e voto em Bolsonaro no Alto Vale.
Aqui a lógica nacional se repetiu no Alto Vale. Ou seja, maior presença de formados em Curso Superior indicou maior apoio à Jair Bolsonaro em 2018. A diferença entre os grupos é estatisticamente significativa. Um aviso: os dados do censo são de 2010, podem então estar defasados, o que exige cautela na hora de extrapolar essas análises. A média de % de formados em nível superior nas cidades de nível de apoio Alto é de 6,69%. No grupo Muito Alto, essa média é de 9,65%. O censo novo tem previsão de ser realizado em 2022 e aí dispondo de dados mais atuais é possível ter um vislumbre mais certo desse achado.
"O Índice de Desenvolvimento Humano Municipal (IDHM) é uma medida composta de indicadores de três dimensões do desenvolvimento humano: longevidade, educação e renda. ... Embora meçam os mesmos fenômenos, os indicadores levados em conta no IDHM são mais adequados para avaliar o desenvolvimento dos municípios brasileiros. " fonte: (https://www.br.undp.org/content/brazil/pt/home/idh0/conceitos/o-que-e-o-idhm.html)
Chegamos a conclusão que os municípios mais desenvolvidos do Alto Vale tenderam a dar maior apoio à Bolsonaro. A diferença é estatisticamente significativa. O outlier aqui é Rio do Sul, com IDH muito acima das outras 27 cidades. Tiramos essa cidade da amostra e rodamos de novo o teste P-value e não houve significância encontrada. Desse modo, suspeitamos que a presença do outlier Rio do Sul faz com que não tenhamos segurança quanto ao relacionamento entre IDH e voto em Bolsonaro no Alto Vale.
A votação em Aécio Neves em 14 é diretamente relacionada ao nível de apoio à Bolsonaro em 2018? Sim! A presença de dois ouliers negativos e dois positivos não impacta esse achado, uma vez que eles se anulam? Depende, é necessário mais dados ou outros testes estatísticos. Sabemos que há relação por termos feito tais procedimentos em outras análises nesse site (veja lista no fim dessa página).
Mesmo distante no tempo, é perceptível que as cidades que votaram mais em Lula em 2006 tendem a dar apoio Alto. As cidades que votaram menos no petista se enquadrariam mais entre as de apoio Muito Alto. As diferenças de médias são as seguintes:
Entre as 14 cidades de apoio Alto à Bolsonaro a votação média em Lula em 2006 foi de 25,42%
Já entre as 14 cidades de apoio Muito Alto, a votação média no petista foi de 22,79%
Mas é bom ter cautela, por que o p-value deu somente 0.10 o que nos indica uma segurança de 90% e não de 95%, como é usual.
A utilização de cidades como unidade de análise - e não de eleitores - também inviabiliza uma incursão mais detalhada. Isso posto, o Alto Vale não é igual ao Brasil no que concerne ao apoio ao presidente de direita Jair Bolsonaro. Isso em si é marcante dado que nos dados encontramos algumas semelhanças e dessemelhanças entre achados nacionais e do Alto Vale.
Pertencimento ao grupo religioso evangélico, bem como a presença de idosos não se mostrou significativa, por outro lado o tamanho da cidade e % de cursos superiores ornou bem certinho com o desempenho bolsonarista nacional.
Cumpre ressaltar que há outras técnicas que possibilitam amplificar o estudo do Bolsonarismo na região, abaixo apresento uma lista de análises anteriores nesse sentido. Se destina a quem tem interesse em se aprofundar na temática.
MUITO OBRIGADO!
(basta clicar nos nomes para acessar)
Se você gostou desse conteúdo, fica o convite para que compartilhe com seus amigos: