Agora que já aprendemos os conceitos de levantamento de dados, podemos nos aventurar na arquitetura de dados. O conjunto de modelos, políticas, regras ou padrões que regem quais dados são coletados, como são armazenados, organizados, integrados e colocados em uso é conhecido como arquitetura de dados. Os dados, geralmente, são um dos vários domínios que forma os pilares de uma arquitetura corporativa ou arquitetura de solução.
Assim como em nosso dia a dia, temos uma série de regras para organizar nossas coisas, como: as roupas temos que guardar no guarda roupa, as panelas no armário, isso também é feito com as informações. E é como organizar esses dados que veremos nesta lição.
Como vimos, a arquitetura de dados é a forma como os dados são organizados, sendo assim, é simples imaginar como este conceito é importante na indústria. Quanto maior é a empresa, maior é o número de processos e sistemas utilizados, neste contexto, é indispensável a aplicação dos princípios da arquitetura de dados.
Desse modo, é importante que você conheça todas as características que regem a arquitetura de dados e os seus princípios para lhe ajudar a navegar no mundo dos dados.
Sabemos que os dados fazem parte da nossa vida, estão em todos os lugares e regem, de certa forma, como o mundo funciona. Todos os dias criamos, acessamos, distribuímos dados em diferentes fontes e contextos, seja em nossa vida pessoal seja na profissional.
Nos últimos anos, por conta da pandemia, muitos profissionais passaram a trabalhar no modelo home office, e este cenário contribuiu para que, nos últimos dois anos (2020, 2021), quebrasse o recorde de geração de dados digitais. Segundo o artigo publicado por Hopkins (2021), a quantidade total de dados consumidos, globalmente, ultrapassou a marca de 64,2 Zettabytes.
Toda esta informação tem um valor. Empresas privadas e organizações governamentais investem milhões de reais todos os anos para ter acesso a informações que podem gerar conhecimento ou vantagens estratégicas. Portanto, há muito valor nos dados, porém, para extrair esse valor, precisamos ser capazes de analisar e organizar as informações.
E é aqui que entra a arquitetura de dados. Transformar e fornecer informações de forma inteligente e eficaz de modo a permitir que as organizações tomem decisões melhores e mais rapidamente.
Arquitetura de dados consiste em um conjunto de padrões e ferramentas que utilizamos para gerenciar dados. Em linhas gerais, define os processos para capturar, transformar e fornecer dados de forma simples para usuários, além disso, permite identificar as pessoas que consumiram os dados e seus requisitos.
A arquitetura de dados aborda dados armazenados, dados em uso e dados em movimento, descrições de armazenamentos de dados, grupos de dados e itens de dados e mapeamento destes artefatos de dados para qualidade de dados, aplicativos, localizações etc. Ele fornece critérios para operações de processamento de dados de modo a possibilitar o projeto de fluxos de dados e, também, o controle do fluxo de dados no sistema. Você como um arquiteto de dados deve ter os padrões adequados para cada situação.
O objetivo de projetar uma boa arquitetura é fornecer dados relevantes para os usuários além de ajudá-los a entendê-los. A arquitetura de dados pode ser definida por três componentes:
Resultado da arquitetura - modelos, definições e fluxo de dados.
Atividades da arquitetura - implementação e cumprimento das intenções da arquitetura.
Comportamento da arquitetura - funções e serviços que afetam a arquitetura.
Para implementar estes componentes, devemos ter claro como coletaremos, armazenaremos e trataremos os dados. Fatores, como volume, variedade dos dados e velocidade com a qual são gerados e processados nos auxiliarão a identificar quais tipos de tecnologia devemos utilizar.
Pensando em uma implementação do zero, o primeiro passo é considerar ferramentas para nos auxiliar na extração dos dados brutos, para isso, podemos utilizar ferramentas, como Google Analytics, Adobe Analytics para auxiliar na catalogação dos dados.
O segundo passo é pensar onde os dados ficarão armazenados de forma estruturada, ou não, e que agregam informações de diversas plataformas de maneira integrada. Por fim, devemos implementar uma lógica de visualização que permita o estudo dos dados para suporte de tomada de decisões. Porém não basta apenas conhecer ferramentas ou os componentes que compunham a arquitetura de dados.
Para projetar uma arquitetura moderna e eficaz, devemos seguir seis princípios que nos auxiliará nesta tarefa:
Compartilhamento - dados são um ativo que deve ser compartilhado a todos os interessados para garantir uma visão completa da empresa. Ao implementar um sistema de compartilhamento de dados, é possível obter uma visão geral de todos os setores, aumentando a capacidade de correlacionar sinais de dados valiosos, desde a fabricação até a logística, que pode impulsionar a eficiência corporativa.
Acesso - arquiteturas de dados modernas precisam fornecer interfaces que facilitem o consumo de dados pelos usuários, usando ferramentas adequadas para seus trabalhos.
Vocabulário - a arquitetura deve garantir o entendimento comum dos dados. Catálogos, listas de produtos, nomes de campos chave precisam ser comuns. Sem um vocabulário padrão, a empresa pode gastar muito tempo discutindo resultados.
Curadoria - a arquitetura deve implementar metodologias de curadoria dos dados. Sem a modelagem de curadoria adequada de relacionamentos e dados brutos, a manutenção dos dados torna-se mais custosa com o passar do tempo.
Agilidade - os dados devem ser otimizados para maior agilidade no acesso. Reduza o número de vezes que os dados devem ser movidos para reduzir custos, aumentar a atualização dos dados e otimizar a agilidade da empresa.
Segurança - as arquiteturas de dados devem ser projetadas para segurança e devem oferecer suporte a políticas de dados e controles de acesso, diretamente nos dados brutos.
Implementar uma arquitetura de dados pensando nos princípios listados anteriormente traz consigo uma série de benefícios. Vamos, agora, conhecer algumas características centrais da construção de uma arquitetura de dados.
Uma boa arquitetura deve permear o fluxo de dados de maneira correta e consistente. O fluxo e os relacionamentos dos dados devem ser definidos e, para isso, utilizamos o diagrama de arquitetura de dados. Os diagramas de arquitetura visam demonstrar como os dados fluem, são processados e utilizados. Um diagrama de arquitetura contém os seguintes itens:
Ilustrar como ocorre o processamento dos dados.
Apresentar de forma detalhada a forma de armazenamento de dados.
Exibir taxa estimada de incrementos de dados.
Descrever como os componentes da arquitetura contribuem para o desempenho.
Na literatura, existem várias estruturas que são utilizadas como base por arquitetos de dados para a construção de arquiteturas.
DAMA-DMBOK2 - Data Management Body of Knowledge é uma estrutura que visa especificar padrões para gerenciamento de dados, como terminologias de gerenciamento de dados, funções, relações de resultados além de diretrizes de princípios para gerenciamento (ALVES, 2009).
Zachman Framework - Padrão desenvolvido pela IBM, em 1980, apresenta uma estrutura em camadas para arquitetura, composto por modelos semânticos, conceituais, lógicos e físicos (ALVES, 2009).
TOGAF - do inglês Open Group Architecture Framework, atualmente, é a metodologia mais utilizada e oferece uma estrutura para projetar, implementar e gerenciar as melhores práticas (ALVES, 2009).
Além das metodologias citadas, existem diversas outras e, durante a sua caminhada no mundo de desenvolvimento de software, você se deparará com diversas outras.
Um exemplo de aplicação da arquitetura de dados pode ser encontrado no tratamento dos dados de grandes empresas. Nelas, os dados são estruturados de forma a aplicar todos os princípios, podendo, ou não, agregar dados e informações de outras fontes e plataformas. Algumas empresas disponibilizam acesso aos seus dados por meio de APIs, permitindo, assim, que outros empreendimentos utilizem esses dados, e, ao mesmo tempo, contribui produzindo uma série de novos dados que podem gerar ganhos.
ALVES, W. P. Banco de dados: teoria e desenvolvimento. São Paulo: Saraiva Educação SA, 2009.
HOPKINS. Insights-Driven Businesses Set The Pace For Global Growth. Data Ideology, 2021. Disponível em: https://www.dataideology.com/data/insights-driven-businesses-are-growing-at-an-average-of-more-than-30-each-year-and-by-2021-they-are-predicted-to-take-1-8-trillion-annually-from-their-less-informed-peers/. Acesso em: 31 maio 2022.