Olá, estudante! Aprendemos, nas lições anteriores, que os sistemas de informação possuem o propósito de fornecer informações precisas e de qualidade e que tenham abrangência e resultados em tempo hábil. Essas informações geram um acúmulo de dados coletados dos negócios e devem ser unidas e integradas para que seja possível a extração de informações preciosas para a descoberta de conhecimentos e a tomada de decisões pelas empresas. Para isso, surgiram os sistemas de informação dedicados a apoiar as empresas no fornecimento de um tipo especializado de informação, como Data Warehouses (VIDA et al., 2021).
Um Data Warehouse é um sistema de apoio à tomada de decisão, é como um repositório, ou armazém, de dados, que se dedica a centralizar informações provenientes de todos os setores da empresa para apoiar suas decisões importantes.
Diante disso, o objetivo desta lição é proporcionar a você o conhecimento sobre o Data Warehouse, sua implantação e manutenção. Ao final desta lição, você entenderá as principais características do Data Warehouse e como essa ferramenta proporciona às empresas um imenso suporte durante o processo de tomada de decisão e organização de seus dados.
Nesse momento, convido-o(a) a pensar em uma empresa com unidades/filiais em todo o Brasil. Imagine que, em determinado momento, os colaboradores/empregados dessa empresa não consigam realizar nenhuma operação no sistema, devido aos servidores de aplicação e ao banco de dados estarem lentos, por causa do acúmulo de dados, e ocupados com algum executivo/gestor realizando análises complexas de dados. Você consegue dizer qual seria a solução para esse problema? Bom, uma solução seria gerar uma base, somente, para as análises complexas de dados necessárias que contenha apenas os dados necessários, ou seja, um Data Warehouse, para a centralização das bases formadas por dados copiados de diversas bases, chamadas OLTP (On-Line Transactional Processing).
Dessa forma, as bases de dados e os servidores são separados em: aplicações em nível operacional da empresa, com tarefas de inclusão, exclusão, alteração e consulta simples de dados e valores; e base para análises complexas, com dados não voláteis, incluídos para apoiar as tomadas de decisões dela. Que tal nos aprofundarmos ainda mais em Data Warehouse?
As organizações gestoras da saúde pública no Brasil possuem um sistema com muitas informações e com acúmulo de dados enorme que precisam ser planejados e suas atividades, gerenciadas, porque seus dados são provenientes de diversos sistemas de informação da saúde pública. Isso faz com que as organizações busquem, com frequência, aumentar a eficiência na administração de seus programas de gestão da saúde. Mas como fazer isso? Por meio de soluções de Data Warehouse.
Esta tecnologia pode ser usada como agente facilitador no aumento de qualidade na gestão da saúde pública, que envolve as secretarias de saúde, estaduais e municipais, gerenciando um vasto e complexo número de unidades de atendimento, de profissionais e de programas de saúde. Para as secretarias conseguirem controlar todas as suas atividades, elas interagem com diversos outros sistemas de informações que produzem uma quantidade volumosa de dados.
O conjunto total de dados existentes nas secretarias de saúde brasileiras é produzido por sistemas diferentes, dessa forma, integrar todos esses dados para produzir uma informação gerencial é extremamente árduo. Dessa forma, a implantação de um Data Warehouse, que tem como propósito principal a integração de dados heterogêneos para a produção de informação gerencial, é um passo decisivo para o sucesso e a qualidade.
Começarei a etapa da conceitualização definindo alguns conceitos importantes para esta lição: banco de dados, Data Warehouse e Business Intelligence. De acordo com Vida et al. (2021, p. 49), um banco de dados “é uma coleção de dados relacionados, e dados são fatos conhecidos que podem ser registrados e têm um determinado significado implícito, como nomes, números de telefone, endereços, produtos”.
Esse banco apresenta algumas propriedades, como persistência (os dados são armazenados de maneira permanente em disco, e não apenas em memória RAM), compartilhamento (o banco de dados aceita múltiplas aplicações, ou seja, um banco de dados pode conter dados de aplicações contábeis, usuários de uma empresa, cadastros de produtos etc.) e inter-relacionamento (em que diferentes entidades — ou tabelas de um banco — podem se relacionar) (VIDA et al., 2021).
O Data Warehouse, ou armazém de dados, é um repositório onde os dados de bancos de dados operacionais e de outras fontes são integrados e padronizados para apoiar a tomada de decisão das empresas. É como uma coleção de dados orientada a assuntos de negócio ou entidades, integrada com dados de fontes externas, não volátil, ou seja, novos dados que sempre são acrescentados, em vez de substituídos, e variável no tempo para o suporte às decisões da gerência da empresa (VIDA et al., 2021).
Um Business Intelligence (BI), ou inteligência de negócios, para Vida et al. (2021, p. 51), é uma “combinação de arquiteturas, bases de dados, ferramentas analíticas, aplicativos e metodologias”. O principal objetivo do BI é permitir o acesso interativo a dados para fornecer aos gestores melhores análises sobre os dados que ele contém. Este sistema (BI), normalmente, apresenta quatro componentes principais: Data Warehouse, análise de negócios, gestão de desempenho de negócio e interface do usuário (VIDA et al., 2021).
Um Data Warehouse é um repositório dedicado a centralizar todas as informações provenientes de todos os setores da empresa para apoiar na tomada de decisões importantes. Ele funciona como um grande banco de dados para a extração de análises complexas e informações importantes que poderão ser utilizadas pela empresa de forma estratégica (VIDA et al., 2021).
O Data Warehouse permite que as empresas realizem consultas, extraindo informações importantes para que seus gestores tomem decisões, pois os dados armazenados foram tratados, não ocorrem redundâncias de informações e, ao analisar os dados, eles estarão relacionados a determinado período (VIDA et al., 2021). Portanto, um Data Warehouse pode ser considerado um grande banco, ou armazém, de dados, com muitas informações históricas, que nunca são apagadas da empresa. Com isso, permite que essas informações sejam acessadas para facilitar a aquisição de conhecimento.
Os Data Warehouses podem ser usados na análise complexa de uma área específica e são uma parte importante do Business Intelligence (BI). A arquitetura do Data Warehouse foi desenvolvida para auxiliar na transformação de dados de sistemas operacionais em sistemas de suporte à tomada de decisão (VIDA et al., 2021).
Em um data warehouse, dados de muitas fontes diferentes são trazidos para um único local e depois traduzidos para um formato que esse sistema pode processar e armazenar. Imagine que uma empresa armazena dados sobre as informações, os produtos, os funcionários e os seus salários, as vendas e as faturas de seus clientes. A alta gestão pode solicitar e analisar informações sobre as ações recentes para a redução de custos de determinado setor. Diferentemente do armazenamento básico de dados operacionais, os data warehouses contêm dados históricos agregados (dados altamente úteis extraídos de várias fontes) (VIDA et al., 2021, p. 21).
Os benefícios do Data Warehouse são:
Redução de redundância de informações dentro da organização, pois todas as informações estarão armazenadas em um único local.
Padronização dos dados e a sua organização, para que as informações sejam mantidas íntegras e fáceis de serem consultadas, sempre que necessário.
Para compreender o conceito de Data Warehouse, é necessário conhecer os termos que fazem parte das suas características. O Quadro 1, a seguir, apresenta as características fundamentais dos Data Warehouses.
Agora, entenderemos como funciona a arquitetura de um Data Warehouse. Ela pode se basear na quantidade de camadas (níveis) que serão utilizadas para o armazenamento dos dados, e a sua escolha é fundamental para que os dados estejam bem organizados. Para Vida et al. (2021, p. 118), uma das “formas de representar a arquitetura de um data warehouse é a partir de camadas, mais conhecidas como arquitetura de dois e três níveis”. Vejamos as duas possibilidades de arquitetura:
Os dados operacionais são carregados para um repositório único, representando, de forma centralizada, todos os modelos orientados a assuntos de determinada empresa. Essa arquitetura permite o armazenamento de dados para limpeza, transformação, agregação e derivação dos dados a serem transportados e armazenados nesse tipo de estrutura Data Warehouse.
Considerada uma solução híbrida que promove o uso de um Data Warehouse global, tem o objetivo de atender a diferentes departamentos da empresa de forma descentralizada. A principal vantagem é o acesso rápido a uma porção de dados do Data Warehouse disponível na base local.
No processo de criação de um Data Warehouse, a parte considerada mais complicada é a integração dos dados. Esse problema se deve ao fato de muitas empresas terem sistemas legados, ou seja, sistemas que estão dentro de uma empresa por muitos anos e que utilizam os dados apenas para seus fins operacionais. Desse modo, de acordo com Vida et al. (2021), para uma visão integrada do negócio, é necessária uma adequação desses sistemas, ou seja, um sistema Data Warehouse, e, para isso, existem dois principais métodos de construção de um Data Warehouse:
Modelo top-down: chamado também de Data Warehouse monolítico, ele é projetado e desenvolvido com toda a organização em mente e, após o seu desenvolvimento completo, criam-se os Data Marts (sistemas de armazenamento de dados que contêm informações específicas da unidade de negócios de uma empresa) específicos para cada departamento.
Modelo botton-up: nesse modelo, cada assunto deve ser desenvolvido de forma separada. Após, são criados os Data Marts para cada assunto da empresa, realizando a integração dos sistemas.
Os Data Marts são considerados um subconjunto lógico do Data Warehouse e, geralmente, são divididos por departamentos ou visões necessárias para os usuários. O Data Mart necessita de tecnologias mais simples e baratas, em função do menor volume de dados que gerencia e dos resultados palpáveis que são apresentados em curto período (VIDA et al., 2021). Um Data Mart tem a vantagem de ser construído de forma mais simples e rápida, se comparado a um Data Warehouse. Hoje, têm-se os chamados Data Marts “enlatados”, que são ferramentas extremamente simples, destinadas a necessidades bastante estruturadas (VIDA et al., 2021).
As principais ferramentas de Data Warehouses conhecidas no mercado são apresentadas no Quadro 2:
As ferramentas que apresentamos possuem vantagens e desvantagens para as empresas. Sabendo disso, fica a pergunta: qual delas escolher? Bom, escolher uma ferramenta depende da estrutura, da arquitetura e da complexidade de informações da empresa. Um Data Warehouse oferece a possibilidade de melhorar o desempenho do sistema e a simplificação do acesso aos dados. Mas, para isso, é fundamental que as empresas procurem não medir esforços no processo de manutenção de um Data Warehouses, visto que esse é um fator decisivo para o sucesso e essencial para a qualidade e, também, para tentar minimizar erros (VIDA et al., 2021).
A Figura 1 mostra o fluxo de trabalho genérico para manter um Data Warehouse, e esse processo envolve uma série de tarefas de manipulação de diferentes dados, provenientes de diversas fontes.
O fluxo de trabalho genérico organiza as tarefas e pode ser aplicado tanto na carga inicial de dados como na atualização periódica do Data Warehouse. Ele é dividido em três fases: preparação, integração e atualização. Conheceremos cada uma delas no Quadro 3:
Enfim, cada vez mais, as empresas precisam de informações disponíveis em qualquer momento e local, com confiabilidade e integridade. Conforme Vida et al. (2021, p. 140), “em um mundo onde o concorrente pode estar localizado ao seu lado ou do outro lado do oceano, cada vez mais se faz necessário aplicar conhecimento aos dados”.
Sem um Data Warehouse, a empresa pode deixar de aproveitar o conhecimento de fontes de informação únicas, como os seus próprios dados ou de dados espalhados pela rede. Pensando nesse cenário, é fundamental que as empresas conheçam as ferramentas que criam os Data Warehouses, ou seja, toda essa estrutura de um armazém de dados, pois elas representam um diferencial para o sucesso e para a tomada de decisões assertiva (VIDA et al., 2021).
Para finalizar nossa lição e para você fixar bem o conteúdo, mostraremos a aplicabilidade de um Data Warehouse. Falamos que um Data Warehouse é um local onde existem muitos dados de várias fontes diferentes e que levam a um ou mais assuntos. Portanto, todos esses dados armazenados não têm sentido sozinhos, apenas se forem transformados em informações úteis para a empresa.
Por exemplo, pense na seguinte informação: “aos fins de semana, homens vão mais ao mercado do que as mulheres”. Essa informação ajuda, mas, para Vida et al. (2021), ainda é muito abstrata e ineficiente para uma tomada de decisão complexa. Agora, se a informação fosse: “aos fins de semana, homens vão mais aos mercados para comprar carne e leite”, temos um nível mais aprofundado e que pode ser utilizado para a tomada de decisão, ou para cruzar com outras informações.
Vamos melhorar nosso exemplo: imagine que “aos fins de semana, homens vão mais ao mercado para comprar carne e leite e, geralmente, vão direto ao açougue”. Essa informação já ajuda a empresa (no caso o açougue) a tomar algumas ações, dentre elas, o que é mais interessante para os homens, colocar os itens de modo mais próximo e visível, como garrafas de vinho e cerveja, promoções de conjuntos de carnes, pelo menos, aos fins de semana. Agora é com você. Tente pensar em outras possibilidades sobre o exemplo dado, isso o(a) ajudará a compreender a aplicabilidade de um Data Warehouse.
VIDA, E. S. et al. Data Warehouse. Porto Alegre: Sagah, 2021.