Ferramentas Computacionais para Gestão da Qualidade de Dados
Objetivo
O objetivo do trabalho foi criar uma ferramenta para auxiliar os pesquisadores em todas as etapas de seu Workflow e garantir que os dados coletados estejam de acordo com os princípios de boa governança.
Arquitetura e fluxo de interações
A arquitetura desenvolvida é monolítica, e, portanto, todas as funcionalidades estão contidas em uma única base de código. Ela foi elaborada com base no fluxo de interações esperado do usuário, que pode ser vista no diagrama a seguir, em formato BPMN (Business Process Model Notation).
Todos os dados relevantes são salvos em um cluster MongoDB, um banco de dados NoSQL, especialmente relevante por não limitar o usuário a um único esquema de inserção possível.
A comunicação com o MongoDB é feita diretamente no front-end, a partir do uso do Streamlit, um framework em python, que atua em conjunto com a biblioteca Pandas e Beanie também para as etapas de visualização de dados e demais funções do backend necessárias
As ferramentas
Com as tecnologias e a arquitetura apresentadas acima, foi possível desenvolver uma plataforma como prova de conceito das ideias apresentadas.
Tela para geração de Data Quality Report
Tela para inserção e visualização dos dados
Abaixo você pode conferir mais informações do projeto, incluindo sua página no GitHub