Análises e Visualizações

Análise Exploratória

Inicialmente buscamos analisar o comportamento abstenção dos candidatos, em decorrência da crise de saúde pública por conta do coronavírus já era esperado que o número de faltantes era provavel de aumentar. Confirmando a expectativa, a imagem abaixo apresenta a taxa de comparecimento para realização das provas do ENEM 2020.

Podemos verificar que menos da metade dos inscritos para a prova compareceram em todas as provas, cerca de 45% dos 5 milhões e 700 mil participantes, já os outros 55% ou não compareceram em nenhuma prova ou não se apresentaram em pelo menos uma das provas.

Com relação a taxa de aprovação dos inscritos que compareceram no exame, apenas 38,85% conseguiram atingir nota mínima de 500 pontos na redação e 450 pontos nas demais provas, conforme demonstrado no gráfico abaixo:

Dentre os inscritos que realmente participaram da prova, observamos como distribui-se as notas por área de conhecimento. Desta forma, verifica-se, na imagem a seguir, em quais áreas os aprovados tiver pior ou melhor desempenho, podendo ser utilizado como ferramenta de melhoria nos ensinos para cursos preparatórios para as próximas provas.

O gráfico de violino indica a distribuição das notas dos participantes do ENEM 2020 de acordo com cada prova. Através dele é possível observar que as provas de Redação e Matemática são as que apresentam uma maior distribuição das notas. A redação foi a única prova que apresenta um pouco da distribuição nos extremos, indicando que um número maior de pessoas obtiveram notas muito altas, assim como uma quantidade relevante de participantes teve nota 0.

É importante comentar que as demais provas são pontuadas considerando a teoria de resposta ao item (TRI), uma metodologia que busca equiparar as notas com edições anteriores e evitar que participantes pontuem por sorte. É devido ao TRI que não observamos notas máximas (1000) nas provas objetivas.

Formulário Sócio econômico

Para participar do ENEM o candidato deve preencher um questionário sócio econômico que é divulgado pelo governo federal (de forma anonimizada) e serve como base para estudos posteriores. No ENEM de 2020 esse formulário continha 25 questões e levantava informações como renda familiar, escolaridade dos pais, acesso a serviços e bens de consumo e etc.

Abaixo podemos visualizar algumas dessas respostas. As barras indicam o volume de participantes que responderam o item indicado, enquanto que a linha apresenta o percentual de aprovados (conseguiram nota mínima para obter diploma do ensino médio) para cada grupo.


Observamos que quanto maior a escolaridade do pai, maior a taxa de aprovação. Vale notar também que há um grande volume (quase 200 mil participantes) que não souberam responder a escolaridade do pai.

O mesmo vale para a escolaridade da mãe, quanto maior a escolaridade maior a taxa. Notamos também que um volume bem menor de participantes indicou que não sabia a escolaridade da mãe.

Assim como a escolaridade, quanto maior a renda familiar maior é a taxa de aprovação. No gráfico é apresentado que a maior parte dos candidatos têm uma renda familiar pequena

Já em relação à idade, há uma tendência de candidatos mais velhos terem uma taxa de aprovação menor. Também observamos que a quantidade de candidatos com uma idade mais avançada é bem menor.

Modelo

Buscando identificar quais são as características sócio econômicas mais relevantes para indicar um perfil de candidatos que tenha mais ou menos propensão de alcançar a nota mínima exigida para obter o diploma de ensino médio foi desenvolvido um modelo com esses dados.

O modelo vai considerar todas as características disponíveis e buscar 'interações' entre elas que discriminem melhor grupos que tenham taxas de aprovação muito distintas. Com essa abordagem é possível considerar as contribuições de cada característica de forma marginal (multivariada).

A técnica de modelagem utilizada foi a de boosting através do algoritmo LightGBM.


Shap Values

O Shap Values é uma metodologia que utiliza a teoria dos jogos para identificar o impacto que cada variável apresenta na construção das predições de um dado modelo. Com ele é possível estimar se uma característica aumenta ou diminui a propensão indicada pelo modelo.

Através do Summary Plot é possível identificar, no geral, as variáveis mais relevantes para discriminar as categorias envolvidas. As variáveis são ordenadas pela média do módulo dos impactos. Cada ponto nesse gráfico representa um participante (Cada participante aparece como um ponto para cada variável), o eixo x está na escala Log odds e indica a propensão do participante obter o diploma (quanto mais à direita mais a variável contribuiu para uma maior propensão indicada pelo modelo e quanto mais a esquerda maior a contribuição para uma menor propensão). A cor indica o valor dessa variável, quanto mais próximo do azul maior o valor na respectiva característica do candidato e quanto mais próxima do vermelho, menor.

Vemos, portanto, que a renda é a característica que mais influencia na propensão de um candidato alcançar a nota mínima do exame. Aqueles que têm uma renda maior são impactados de forma positiva, enquanto os que têm baixa renda acabam com a propensão reduzida devido a essa característica.

Além disso, computador na casa se apresentou como uma característica muito relevante (Essa edição do enem foi feita durante o período da pandemia de covid-19, em que as aulas eram à distância). No gráfico vemos que pessoas que não têm computador em casa acabam com a propensão indicada pelo modelo reduzida.

Vários outros padrões podem ser observados. Características como sexo, cor de pele, escolaridade e ocupação dos pais, faixa etária e tipo de escola dos candidatos influenciam na propensão deles alcançarem a nota mínima. É possível observar que homens, brancos, candidatos com pais que tenham uma maior escolaridade e que ocupem cargos que são mais reconhecidos, bem como aqueles que estudam na rede privada ou federal tendem a ter propensões maiores.

Além da visualização geral podemos obter uma visualização de como as características de cada candidato participam na composição da predição do modelo. O gráfico acima é chamado de Force plot e a escala dele já está em probabilidade.

Observamos que o modelo indicou uma propensão muito baixa de obter o diploma (0.16) para o candidato em questão. As características que mais contribuíram para esse valor baixo foram: baixa renda, não informado o tempo que concluiu o ensino médio, uma maior faixa etária, muitas pessoas na casa e o pai ocupando um trabalho que não é muito valorizado em termos de renda.