Visão Geral do Projeto:
Este projeto implementa um pipeline de ETL completo para dados educacionais do INEP/IBGE, utilizando Python, dbt e PostgreSQL, todos orquestrados em contêineres Docker.
O objetivo é extrair, organizar e disponibilizar dados em camadas estruturadas (Bronze → Silver → Gold), otimizando a análise e a visualização em ferramentas de BI como Power BI ou Looker Studio.
Centralizar e versionar a extração de dados públicos de educação.
Organizar dados em camadas de arquitetura moderna para análises eficientes.
Garantir reprodutibilidade e facilidade de implantação em qualquer ambiente.
Automatizar a tipagem e transformação de dados com dbt.
Criar base confiável para indicadores e dashboards analíticos.
API INEP/IBGE
│
▼
Python Extractor (Pipeline)
│
├── dbt seed → Bronze (dados brutos em CSV)
└── dbt run → Silver (dados tratados) / Gold (dados analíticos)
Componentes Principais:
Pipeline Python: Responsável por consumir a API, gerar arquivos CSV e iniciar o processo dbt.
dbt-cli: Materializa as camadas e executa testes e transformações.
PostgreSQL 17: Banco de dados destino, exposto em localhost:5433 para consumo.
Docker Compose: Orquestração dos serviços, garantindo isolamento e padronização.
Ambiente Docker configurado com Postgres, dbt e pipeline Python.
Estrutura de schemas separados (public_raw, public_silver, public_gold).
Pipeline reprodutível e documentado.
Automação da extração, transformação e carga (ETL).
Dados prontos para integração direta com ferramentas de BI.
Documentação para instalação, execução e contribuição.
Python 3.11 → Extração de dados e geração de seeds.
dbt-core 1.7 → Transformações, materializações e testes.
PostgreSQL 17 → Armazenamento estruturado dos dados.
Docker/Docker Compose → Orquestração de serviços.
Pandas / Requests / PyYAML → Manipulação e integração de dados.
Abaixo segue o projeto publicado no Github: