Este notebook apresenta uma análise abrangente da população carcerária do estado de Minas Gerais. Através de uma série de visualizações e tabelas de dados, exploramos diferentes aspectos dos dados para descobrir insights e padrões.
Aquisição e Limpeza de Dados : Inicialmente, adquirimos dados de fonte confiável, garantindo sua relevância e precisão. Esses dados são então limpos para remover quaisquer inconsistências ou valores ausentes, preparando-os para análise.
Visão Geral dos Dados : Apresentamos o primeiro vislumbre dos dados através de uma tabela bem estruturada, fornecendo um instantâneo das diversas colunas como 'Penitenciaria' (Penitenciária), 'Cidade' (Cidade), 'Detentos' (Detidos), e outras, que incluem contagens e dados categóricos.
Insights iniciais : estatísticas básicas são fornecidas para resumir as tendências centrais, dispersão e formato da distribuição do conjunto de dados. Estes incluem medidas como média, mediana e desvio padrão, que fornecem uma compreensão inicial dos dados.
Análise detalhada : nos aprofundamos nos dados gerando representações visuais:
Histogramas : Estes gráficos mostram a distribuição de frequência de detidos em diferentes penitenciárias, ilustrando as instalações mais e menos povoadas.
Gráficos de barras : Esses gráficos comparam o número de detidos em diversas cidades, destacando áreas com maior concentração da população carcerária.
Análise de série temporal : um gráfico de linhas com um controle deslizante de intervalo fornece uma visão dinâmica da tendência populacional ao longo do tempo, permitindo uma análise temporal dos dados.
Conclusão : Cada visualização é acompanhada por uma interpretação concisa, chamando a atenção para descobertas importantes, como picos populacionais ou anomalias.
Este caderno foi projetado para ser acessível a um público amplo, com visualizações e explicações claras que não requerem formação técnica para serem compreendidas. O objetivo é informar decisões políticas, alocação de recursos e conscientização pública sobre o sistema prisional em Minas Gerais.
Abaixo temos o arquivo PDF que foi gerado a partir do jupyter notebook :
Este notebook detalha a análise de dados sobre violência contra a mulher em Minas Gerais, cobrindo o período de 2013 a 2023. Utilizando técnicas de ETL (Extração, Transformação e Carregamento) e a junção de diversas fontes de dados, conseguimos estruturar as informações em um modelo Star Schema. Através do Power BI, exploramos diversos aspectos desses dados para identificar padrões e insights significativos sobre a violência contra a mulher na região.
Neste projeto avançado, começamos instalando as bibliotecas necessárias do PySpark para o ETL de 10 arquivos CSV. Após a leitura, unificamos os dados em um único arquivo compilado. Realizamos a limpeza de dados, removendo registros nulos ou em branco, renomeamos colunas e alteramos a tipagem da coluna de vítimas de String para Inteiro. Selecionamos os dados relevantes para criar tabelas em formato Star Schema, incluindo dimensões como Calendário, Município e Fatalidade. Finalmente, transformamos os dados em um arquivo Parquet para melhor desempenho e os armazenamos no BigQuery através do Google Cloud Storage.
Abaixo temos o arquivo PDF que foi gerado a partir do jupyter notebook :
Abaixo temos as tabelas em formato parquet armazenadas no Bucket do Cloud Storage:
Abaixo temos as tabelas que foram criadas atráves do Bucket no BigQuery:
Abaixo temos o processo estrutural de como foi realizado o projeto: