PORTFÓLIO DE ANÁLISE DE DADOS

Projeto: Educação – Pipeline ETL com Python + dbt em Docker

Visão Geral do Projeto:

Este projeto implementa um pipeline de ETL completo para dados educacionais do INEP/IBGE, utilizando Python, dbt e PostgreSQL, todos orquestrados em contêineres Docker.
O objetivo é extrair, organizar e disponibilizar dados em camadas estruturadas (Bronze → Silver → Gold), otimizando a análise e a visualização em ferramentas de BI como Power BI ou Looker Studio.

Objetivos do Projeto

Centralizar e versionar a extração de dados públicos de educação.
Organizar dados em camadas de arquitetura moderna para análises eficientes.
Garantir reprodutibilidade e facilidade de implantação em qualquer ambiente.
Automatizar a tipagem e transformação de dados com dbt.
Criar base confiável para indicadores e dashboards analíticos.

Arquitetura da Solução

API INEP/IBGE

│

▼

Python Extractor (Pipeline)

│

├── dbt seed → Bronze (dados brutos em CSV)

└── dbt run → Silver (dados tratados) / Gold (dados analíticos)

Componentes Principais:

Pipeline Python: Responsável por consumir a API, gerar arquivos CSV e iniciar o processo dbt.
dbt-cli: Materializa as camadas e executa testes e transformações.
PostgreSQL 17: Banco de dados destino, exposto em localhost:5433 para consumo.
Docker Compose: Orquestração dos serviços, garantindo isolamento e padronização.

Principais Entregas

Ambiente Docker configurado com Postgres, dbt e pipeline Python.
Estrutura de schemas separados (public_raw, public_silver, public_gold).
Pipeline reprodutível e documentado.
Automação da extração, transformação e carga (ETL).
Dados prontos para integração direta com ferramentas de BI.
Documentação para instalação, execução e contribuição.

Tecnologias Utilizadas

Python 3.11 → Extração de dados e geração de seeds.
dbt-core 1.7 → Transformações, materializações e testes.
PostgreSQL 17 → Armazenamento estruturado dos dados.
Docker/Docker Compose → Orquestração de serviços.
Pandas / Requests / PyYAML → Manipulação e integração de dados.

Abaixo segue o projeto publicado no Github:

GitHub - Pantercode/br-educacao-python-dbt-postgresContribute to Pantercode/br-educacao-python-dbt-postgres development by creating an account on GitHub.

Page updated

Google Sites

Report abuse