Ferramentas Computacionais para Gestão da Qualidade de Dados

Objetivo

O objetivo do trabalho foi criar uma ferramenta para auxiliar os pesquisadores em todas as etapas de seu Workflow e garantir que os dados coletados estejam de acordo com os princípios de boa governança. 

Arquitetura e fluxo de interações

A arquitetura desenvolvida é monolítica, e, portanto, todas as funcionalidades estão contidas em uma única base de código. Ela foi elaborada com base no fluxo de interações esperado do usuário, que pode ser vista no diagrama a seguir, em formato BPMN (Business Process Model Notation).

Todos os dados relevantes são salvos em um cluster MongoDB, um banco de dados NoSQL, especialmente relevante por não limitar o usuário a um único esquema de inserção possível.

A comunicação com o MongoDB é feita diretamente no front-end, a partir do uso do Streamlit, um framework em python, que atua em conjunto com a biblioteca Pandas e Beanie também  para as etapas de visualização de dados e demais funções do backend necessárias 


 

As ferramentas

Com as tecnologias e a arquitetura apresentadas acima, foi possível desenvolver uma plataforma como prova de conceito das ideias apresentadas.

Tela para geração de Data Quality Report

Tela para inserção e visualização dos dados

Abaixo você pode conferir mais informações do projeto, incluindo sua página no GitHub