Produzimos diariamente uma quantidade enorme de dados. A proliferação do uso de dispositivos móveis e das mídias sociais impulsionam novas formas e fontes de dados, gerando um aglomerado de dados que chamamos de Big Data. Porém, o avanço das tecnologias e a capacidade de processamento dos computadores intensificaram também as análises desses dados, afinal, para as organizações não basta ter dados, é preciso gerar informação e conhecimento.
Vamos começar tratando sobre dados. Essa grande quantidade de dados está distribuída de acordo com o seu formato e estrutura de armazenamento. Assim, podem ser classificados como estruturados, semiestruturados e não estruturados.
São armazenados em uma estrutura previamente definida.
SGBDR (Sistemas Gerenciadores de Bancos de dados Relacionais) ou BDR (Banco de dados relacionais).
Apenas 20% dos dados são estruturados.
São aqueles que têm uma estrutura, ou seja, consegue-se reconhecer um significado, mas não há uma estrutura definida previamente.
São: planilhas de Excel, arquivos CVS, documentos XML, documentos JSON.
Não estruturados
Não é possível obter uma estrutura, e para extrair conhecimento sobre tais dados, é necessário realizar um pré-processamento.
São: textos, imagens, arquivos de som etc.
Uma vez coletados e armazenados, esses dados podem gerar informação e conhecimento que poderão ser utilizados como suporte à tomada de decisão nas organizações. Assim, coletar dados é a primeira etapa para transformá-los em conhecimento. Para podermos avançar, vamos entender a diferença entre informação e conhecimento?
Informação: são os dados contextualizados, categorizados, calculados e condensados. Informação são os dados organizados.
Conhecimento: é quando se dá à informação um contexto, um significado, uma interpretação, ou seja, alguém refletiu sobre o conhecimento, acrescentou a ele sua própria sabedoria e considerou suas implicações mais amplas.
No vídeo Informação, dados e conhecimento, você pode entender a relação entre esses três conceitos e como eles são tratados e aplicados a sistemas de informação.
Com essa “explosão” de conteúdo, a Big Data é a área do conhecimento que estuda como tratar, analisar e obter informações a partir de conjuntos de grande número de dados, que não seriam capazes de serem analisados por sistemas tradicionais. No artigo Big Data Marketing: a importância dos dados para uma nova gestão de estratégias, você pode entender melhor o que é Big Data e acompanhar como o Big Data pode viabilizar o uso dessas informações para melhorar as estratégias de marketing, dentro de uma organização, por exemplo.
Vamos ver alguns importantes conceitos que irão ajudar na compreensão de como analisar dados, principalmente uma grande quantidade de dados.
Data mining
É o processo de lapidar dados brutos e extrair conhecimento a partir deles.
SGBD
Ou Sistema gerenciador de Bancos de Dados, é um software que é responsável por gerenciar o acesso aos dados. É responsável por fazer a interface entre os dados com aplicações e usuários, encapsulando-os, garantindo sua segurança e integridade. Ex. SQL Server, MySQL e Oracle.
Data Warehouse
São bancos de dados analíticos, projetados para armazenar os dados de fontes diversas, já transformados e preparados para serem explorados por aplicações de tomada de decisão
NOSQL
São banco de dados onde os dados podem ser distribuídos de maneira independente, sem que seja necessário enviar todo um conjunto para um determinado nó ou disco.
Os dados estão mudando a maneira como nos relacionamos com a tecnologia e, principalmente, como os gestores das organizações tomam suas decisões.
Imagine o volume de dados gerados por uma organização revertidos em prol de um melhor desempenho. O Business Intelligence (BI) auxilia o gestor a ter “na palma da sua mão” os dados de todos os sistemas da empresa integrados aos dados de suas redes sociais, permitindo a tomada de decisão sobre as mais diversas perspectivas. Veja como funciona um BI.
Fonte: http://developerplace.com.br/postagens/business-intelligence-postagens/funcionamento-de-uma-ferramenta-de-business-intelligence-bi/. Acesso em: 8 set. 2020
O Business Intelligence é um conjunto de técnicas e processos, alinhados com tecnologia, que transformam uma grande quantidade de dados brutos em informação e conhecimento que podem auxiliar no suporte à tomada de decisão.
Na próxima etapa, vamos conhecer mais a fundo como funciona o processo de análise de dados e o Business Intelligence. Vamos continuar?
Bons estudos!
A partir da perspectiva do saber fazer, neste capítulo você terá os seguintes objetivos de aprendizagem:
os principais cenários de dados no mundo atual;
a importância de se obter um grande volume de dados para a geração de conhecimento, os tipos e formatos de dados;
conceituar conhecimento e saber os processos para extraí-los;
conhecer técnicas e ferramentas para coleta e análise de dados.
Já parou para pensar na quantidade de dados que você gera diariamente? Isso mesmo, apenas você? Apenas um celular conectado com e-mail, aplicativo de mensagens e mídias sociais é capaz de gerar uma grande quantidade de dados, dos mais diversos tipos (textos, áudios, fotos, vídeos). Se esta reflexão for elevada para todos os usuários, em que apenas no Brasil, segundo o IBGE, 116 milhões de pessoas têm conexão com a internet, imagine a quantidade de informação gerada diariamente em todo mundo por diversas empresas. Isso em números significam cerca de 2,5 quintilhões de bytes gerados, diariamente, em todo o mundo.
Tradicionalmente, as bibliografias tratam do tema de análise de dados, na mesma linha que este livro as aborda, principalmente, a dificuldade da integração dos dados a partir de diversos sistemas de informação. No entanto, as principais obras sobre o tema foram publicadas em 1992 e 1996. Neste contexto, muita coisa vem se modificando e a principal mudança é o notório volume de dados gerados pelo uso da internet no mundo.
O Internet Live Stats é uma equipe internacional de desenvolvedores, pesquisadores e analistas que tem como objetivo coletar e disponibilizar estatísticas sobre o volume de sites na Web, de maneira que estes conteúdos sejam fornecidos em um formato dinâmico e relevante para um público amplo em todo o mundo. Segundo estimativas deste órgão, até a confecção deste livro existem 1.929.019.952 de sites na Web e um total de 4.068.405.997 usuários espalhados por todo o mundo. Estes usuários geram uma grande informação diariamente e tais dados são interessantes para as organizações, pois contêm os mais diversos tipos de estruturas, simples ou complexas, que existem, atendendo a diversas necessidades e possuindo diversos conteúdos e formatos.
A grande questão é que por um longo período as pessoas eram apenas consumidoras de conteúdos, um público-alvo, números sem voz, porém, quando se transformam em usuários da grande rede mundial, cada indivíduo ganha seu poder e voz, ao invés de ser receptor de mensagens, as pessoas se tornam produtoras de informações de valor, como decidir qual produto consumir, como influenciam seus amigos nas redes sociais, quais termos de busca mais utilizam, quais notícias e quais temas mais lhe interessam. Durante muitos anos as grandes empresas investiram fortemente em pesquisas de opinião e entrevistas de foco local, tendo como objetivo saber se o produto a ser lançado atingia o público-alvo e como melhorá-lo em relação aos concorrentes. Agora as pessoas estão inundando as mídias sociais com bilhões de dados, mais do que empresas e marcas consigam administrar transformando a internet numa imensa plataforma de pesquisa quando o que vale não é o que se diz, mas o que de fato se faz. Estão gerando um imenso manancial de dados e métricas, dados de mercado e consumo. Como transformá-los em inteligência de negócio?
Um grande ponto de aumento dos dados é um ponto constante, não se muda apenas o volume dos dados, mas também o limiar que mensura essa evolução. O IDC (International Data Corporation) realizou um estudo intitulado “O universo digital das oportunidades: riquezas de dados e valor crescente da internet das coisas”, com pesquisa e análise da IDC, foi reportado que no ano de 2013 havia um conjunto composto por 4,4 trilhões de gigabytes (ou 4,4 zettabytes) de informação. Utilizando diversos conjuntos de métricas e análises, o instituto realizou uma previsão que o mundo saltará para 44 trilhões de gigabytes (44 zettabytes) em 2020 e que 10% desse volume de dados corresponderá à internet das coisas.
O grande desafio é buscar alternativas para armazenar e processar estes dados, gerando informação e conhecimento. O caso mais conhecido da análise de dados e geração de conhecimento para a tomada de decisão é o caso da fralda e da cerveja. Neste caso, os dados de vendas de produtos de uma grande rede de mercados americana, após computar um grande volume de dados, foi possível descobrir que sempre que havia uma compra de fralda às sextas-feiras, havia uma grande probabilidade de também conter cerveja. Tal análise, permitiu que a rede tomasse a decisão de realocar os produtos pelas lojas e aumentasse suas vendas.
Os analistas de dados, muitas vezes, chamados de analistas de Business Inteligence, que já tinham em mãos os desafios de centralizar diversas fontes de informação ainda têm isso aumentado.
Em seu tradicional infográfico atualizado, a Go-Globe divulga “O mundo em 60 segundos”, que é mostrado na figura a seguir. Nela é possível ver o volume de informações geradas a cada minuto em todo mundo nos principais veículos. Note que apenas buscas no Google são 3.8 milhões, no Youtube são 400 horas de vídeo enviados e cerca de 700 horas de vídeos assistidos, tudo isso desde que você começou a leitura desta seção
FONTE: <https://bit.ly/30ABSdu>. Acesso em: 15 out. 2018.
Que o mundo vivencia uma explosão dos dados, isto é fato, o que nos gera um grande desafio: armazenar e gerenciar tais dados. O grande fato, conforme visto anteriormente, geramos os mais diversos tipos de dados, que nem sempre possuem uma estrutura. Tornando necessário o conhecimento sobre o formato desses dados para se obter a melhor maneira de processar e armazená-los.
Conforme mostra a figura anterior, apenas 20% dos dados são armazenados de maneira estruturada. Os dados estruturados são aqueles que estão armazenados em uma estrutura previamente definida, tradicionalmente os softwares tradicionais os utilizam na forma de SGBDR (Sistemas Gerenciadores de Bancos de Dados Relacionais) ou BDR (Bancos de Dados Relacionais). A principal característica dos SGBDRs é que foram construídos para garantir a integridade dos dados armazenados, toda sua estrutura é feita com base em tabelas construídas com base em relacionamentos. Com relação ao motivo desta forma de armazenamento ser chamada de estruturada, isto se dá, principalmente, pelo fato de que a estrutura dos dados deve ser definida previamente ao armazenamento dos dados. Ou seja, primeiro é realizada a definição do campo, depois sua inserção.
Os bancos de dados relacionais estão consolidados no mercado há mais de 50 anos, no entanto, 80% dos dados distribuídos pela Web assumem outros dois formatos: semiestruturados e não estruturados.
Os dados semiestruturados são aqueles que têm uma estrutura, ou seja, se consegue reconhecer um significado, no entanto, ao contrário dos estruturados, esta estrutura não é definida previamente. Tal estrutura é incremental e vai se alterando no passar do tempo. São exemplos de dados semiestruturados: planilhas Excel, arquivos CSV, documentos XML, documentos JSON. Dados semiestruturados apresentam uma representação estrutural heterogênea, não sendo nem completamente não estruturados nem estritamente tipados. Dados Web se enquadram nessa definição: em alguns casos os dados possuem uma descrição uniforme (um catálogo de produtos), em outros, algum padrão estrutural pode ser identificado (um conjunto de documentos no formato de artigo). Afirma-se também que dados semiestruturados são dados nos quais o esquema de representação está presente (de forma explícita ou implícita) juntamente com o dado, ou seja, este é autodescritivo. Isto significa que uma análise do dado deve ser feita para que a sua estrutura possa ser identificada e extraída (MELLO, 2000).
Por sua vez, os dados não estruturados, são os que mais populam a Web, destes não é possível obter uma estrutura, e para extrair conhecimento sobre tais dados é necessário realizar um pré-processamento. São exemplos de dados não estruturados: textos, imagens, arquivos de som, vídeos e os mais diversos arquivos multimídia.
Nas organizações isto não é diferente, empresas utilizam seus softwares de gestão para gerenciar as mais diversas operações (vendas, marketing, produto) o que por si só já se torna um desafio que é integrar os dados de todos os setores, muitas vezes, centralizados em diversos SGBDs e softwares. Complementarmente, cada vez mais empresas utilizam redes sociais para divulgar seus produtos e iniciativas, tornando-se interessante extrair dados sobre como os usuários destas redes estão reagindo a isso. Na produção da empresa, com a ascensão do conceito de internet das coisas e do sensoriamento, os dados podem ser coletados em tempo real e a maneira com que se trabalha com indicadores de produção passa se tornar em tempo real.
FONTE: <https://bit.ly/3iw5WwX>. Acesso em: 25 out. 2018.
E ainda não para por aqui, afinal até o momento, estes dados tratam apenas da própria corporação, quando empregado o conceito de inteligência competitiva, que é uma estratégia de se obter informações relevantes sobre o comportamento da concorrência, o volume de dados coletados é ainda maior. A competitividade, a informatização e a necessidade de diferencial competitivo fizeram com que as organizações percebessem a importância do conhecimento e de sua gestão (LACKMAN; SABAN; LANASA, 2000).
Agora imagine todos estes dados consolidados, integrados e aptos a serem explorados por diversas perspectivas, com isto em mãos, os gestores de uma empresa podem tomar os mais diversos tipos de decisões gerenciais. Decisões sobre venda, compra, realocação de produtos, alteração no fluxo gerencial e uma infinitude delas.
Assim, obter-se métodos eficazes para coletar, pré-processar dados de diversas fontes e armazená-los em uma única estrutura é de extrema importância para a organização. Uma vez estes dados coletados e armazenados podem gerar informação e conhecimento que poderão ser utilizados como suporte à tomada de decisão. Mas afinal, qual é a diferença entre dados, informação e conhecimento?
Conhecendo os tipos de dados
Você viu até o momento que falamos sobre diversos tipos de dados, sua estrutura e forma de armazenamento. Você conhece os tipos de dados que citamos? Sabe o que eles têm em comum e diferente? Utilizando como exemplo um cenário de dados onde se deseja armazenar dados sobre produto e estoque, veremos alguns exemplos de tipos de dados.
Relacional
Esta representação em forma de tabelas é um tipo de dado estruturado, no qual você inicialmente precisa definir a estrutura e depois armazenar os dados. Confira a seguir a representação gráfica dos quadros em um SGBDr e também o código que representa sua criação em um banco de dados físico.
QUADRO 1 – MODELO RELACIONAL E COMANDO SQL RELATIVO
JSON
JSON, em seu significado teórico é "Javascript Object Notation", que nada mais é que o formato mais leve conhecido de transferência/intercâmbio de dados. Além de ser um formato de dados são utilizados por diversos bancos de dados NoSQL. A mesma representação do modelo relacional é vista no quadro abaixo utilizando JSON.
QUADRO 2 – EXEMPLO JSON
[
{
"id_produto":1,
"descricao":"Jaleco",
"preco":"3.50",
“estoque”:30
}
]
CSV
O termo “CSV” tem como significado Comma Separated Values, ou seja, é um arquivo separado por vírgula (ou ponto e vírgula). Assim como o JSON é um formato de arquivo para realizar o intercâmbio de dados com um banco de dados ou uma planilha entre aplicativos.
id_produto, descricao, preco, estoque
1,Jaleco, 3.50,30
2,Chapéu, 13.50,100
3,Calça , 33.50,130
XML
O XML é uma linguagem de marcação muito similar ao HTML, vem do inglês eXtensible Markup Language, é recomendada pela W3C para a criação de documentos com dados organizados hierarquicamente. Tradicionalmente, os sistemas utilizam XML para realizar integração de dados, dentre muitos, o mais famoso é o sistema da receita federal.
QUADRO 3 - EXEMPLO DE XML
<?xml version="1.0">
<produtos>
<produto id=1>
<descricao>Jaleco</descricao>
<preco>Jaleco</preco>
<quantidade>Jaleco</quantidade>
</produto>
<produtos>
Dados, informação e conhecimento
De fato, os dados são de extrema importância para a tomada de decisão estratégica. Mas afinal, apenas ter os dados já implica conhecimento e informação. E estes termos são termos muito próximos o que faz com que em muitos momentos sejam confundidos com apenas um. A figura a seguir ilustra o que cada um representa.
Dados: são fatos e números que transmitem algo específico, mas que não são organizados de maneira formal. Assim não têm contexto, de modo geral, pode-se dizer que dados são a informação de uma maneira bruta. Na definição de Setzer (1999), um dado é necessariamente uma entidade matemática e, desta forma, é puramente sintático. Isto significa que os dados podem ser totalmente descritos através de representações formais, estruturais. São ainda quantificados ou quantificáveis, eles podem obviamente ser armazenados em um computador e processados por ele. Dentro de um computador, trechos de um texto podem ser ligados virtualmente a outros trechos, por meio de contiguidade física ou por "ponteiros", isto é, endereços da unidade de armazenamento sendo utilizados, formando assim estruturas de dados. Ponteiros podem fazer a ligação de um ponto de um texto a uma representação quantificada de uma figura, de um som, entre outros.
Informação: para que os dados se tornem informações, eles devem ser contextualizados, categorizados, calculados e condensados, deste modo a informação são os dados organizados. De um modo geral, pode-se dizer que a informação é quando se traz um sentido ao dado. Na visão de Angeloni (2003), as informações são apresentadas de acordo com dados, trazendo a eles um significado. As informações então são dados dotados de relevância e propósito. A informação nasce a partir resultado do encontro de uma situação de decisão com um conjunto de dados, ou seja, são dados contextualizados que visam a fornecer uma solução para determinada situação de decisão. Uma informação pode ser considerada como dados processados e contextualizados, no entanto, há autores que defendem que a informação é considerada como desprovida de significado e de pouco valor, sendo ela matéria-prima para se obter conhecimento.
Conhecimento: acontece sobre os dados e as informações, é obter discernimento, critério, apreciação prática de vida e experiência. O conhecimento possuído por cada indivíduo é um produto de sua experiência e engloba as normas pelas quais ele avalia novos insumos de seu entorno. Para Davenport (2000), o conhecimento é a informação mais valiosa e, consequentemente, mais difícil de gerenciar. É valiosa precisamente porque alguém deu a informação a um contexto, um significado, uma interpretação; alguém refletiu sobre o conhecimento, acrescentou a ele sua própria sabedoria e considerou suas implicações mais amplas.
Apesar de vivermos na era da informação, a história dos dados como ferramenta de suporte à tomada de decisões se deu no início na década de 1940, na Universidade de Illinois, com o trabalho intitulado A Logical Calculus of the Ideas Immanent in Nervous Activity (Um cálculo lógico das ideias imanentes na atividade nervosa), desenvolvido por McCulloch e Walter Pitts. Na ocasião estabeleceram uma analogia entre o processo de comunicação das células nervosas vivas e o processo de comunicação por transmissão elétrica e propuseram a criação de neurônios formais. Ao final da pesquisa, conseguiram demonstrar que era possível conectar os neurônios formais e formar uma rede capaz de executar funções complexas. As pesquisas sobre redes neurais evoluíram até 1960, com a Rede Perceptron, criada por Frank Rosenblat, no entanto, baseado, principalmente, pelos argumentos dados por Mavin Minsky em seu livro Perceptron, no qual de maneira simples criticou por não haver poder computacional suficiente naquela época.
Tratando-se de dados, em junho de 1970, o pesquisador Edgar Frank Ted Codd IBM mudou a história dos bancos de dados apresentando o modelo relacional no artigo intitulado "A Relational Model of Data for Large Shared Data Banks", em que discutiu uma proposta de armazenamento de dados, que seriam armazenados em tabelas que devem estar relacionadas. A figura a seguir mostra um exemplo de como esta estratégia funciona, e funciona tão bem que é utilizada amplamente nos mais diversos sistemas comerciais, desde frente de caixa, bancários, ERPs, entre outros.
FONTE: <https://bit.ly/3izy1nc>. Acesso em: 10 dez. 2018.
Na mesma década, Bill Inmon começou a discutir os principais fatores em torno do Data Warehouse e o termo já começou a existir nos anos 1970. Inmon trabalhou extensivamente na aprimoração de suas experiências em todas as formas de modelagem de dados relacionais. O trabalho de Inmon, como pioneiro do Data Warehousing, foi o livro intitulado “Building the Data Warehouse” um dos principais livros sobre tecnologia e bibliografia obrigatória para todo profissional de análise de dados. É impossível falar da história dos dados e não falar de Ralph Kimball, que com sua publicação “The Data Warehouse Toolkit”, divide com Inmon a paternidade dos conceitos sobre o que é um Data Warehouse, mais sobre as arquiteturas e propostas das duas personalidades será discutido no Capítulo 2.
FONTE: O autor (2018)
Em 1996, Usama Fayad publicou o artigo “From Data Mining to Knowledge Discovery in Databases”, que aborda justamente como extrair conhecimento de bases de dados, como a partir de um conjunto de dados enxergar além do que as ferramentas tradicionais permitem visualizar. Este artigo é um dos principais da literatura atual por além de fazer uma revisão sobre os principais métodos de extração de conhecimento, ainda descreve as principais etapas de KDD (Knowledge Discovery in Databases), que são mostradas pela figura a seguir e serão discutidas em mais nível de detalhes no Capítulo 3.
FONTE: Fayad (1996)
Com a arquitetura proposta por Fayad, com o banco de dados de Cood e a proposta de um modelo multidimensional de Inmon, o mundo digital passou por severas mudanças, principalmente com a Web 2.0 e a geração de dados em grande escala. No entanto, tais tecnologias jamais deixaram de ser utilizadas e mesmo as mais novas técnicas de análise de dados levam sua essência. Em 2018 são diversas novas terminologias e tendo como objetivo facilitar o seu entendimento.
Big Data
Big Data é um termo que tem como tradução literal mais próxima “grandes quantidades de dados” e é também o termo instituído pela IBM para determinar a grande quantidade de dados gerados pelos sistemas de informação. Hoje em dia Big Data representa muito mais do que isso, representa uma verdadeira transformação digital, em que quanto mais dados uma empresa puder coletar, mais poder de tomada de decisão poderá obter.
Em sua principal definição, Big Data é conhecido como um cenário que contém a soma de volume, velocidade e variedade, que, quando juntos, geram um valor de informação com veracidade. O volume é o coração, afinal para se obter um cenário de Big Data é necessário ter um grande volume de dados, a velocidade se remete à informação chegar ao tempo mais rápido nas mãos do tomador de decisão e a variedade está relacionada tanto aos dispositivos que coletam dados (sistemas de informação, GPS, câmeras de vídeo, dispositivos IoT, entre outros), quanto à estrutura de tais dados (estruturados, semiestruturados e não estruturados).
Há uma grande dificuldade na definição de quão grande deve ser um conjunto de dados para que seja considerado um volume de dados em Big Data. A primeira coisa a ser levada em consideração é a própria integração de existir volume, velocidade e variedade, bem como a definição dada por Edd Dumbill (DUMBILL, 2012), que afirma que Big Data são dados que excedem a capacidade de processamento dos sistemas de banco de dados convencionais, em que o volume de dados é muito elevado e necessitam de processamento rápido, o que não é provido pelas arquiteturas de bancos de dados tradicionais e para ganhar valor a partir desses dados, é necessário escolher uma forma alternativa para processá-los.
Data mining
A mineração de dados (data mining) é uma operação que leva o seu nome a sério, neste caso, a mina não é de ouro, mas de dados. É um processo de lapidar dados brutos e extrair conhecimento a partir deles. Este processo pode operar diretamente em fontes de dados brutas sob a qual deverá realizar uma severa etapa de pré-processamento de dados, no entanto, é recomendado que seja realizado a partir de uma fonte de dados já integrada e limpa, como, por exemplo um Data Warehouse.
SGBD
Anteriormente falamos sobre Edgar Frank Codd e sua importante contribuição para a comunidade digital, com o desenvolvimento do modelo relacional de armazenamento. Tratar de SGBD é tratar de sistemas que gerenciam o armazenamento de tais dados.
Sistemas Gerenciadores de Bancos de Dados, ou Sistemas Gerenciadores de Bancos de Dados Relacionais são, de maneira simples, um software que é responsável por gerenciar o acesso aos dados. O SGBD é responsável por fazer a interface entre os dados com aplicações e usuários, encapsulando-os, garantindo sua segurança e integridade.
Os SGBDs têm como característica o relacionamento entre tabelas, que implementam os modelos relacionais. Dentre os principais SGBDs do mercado, destacam-se o SQL Server e Oracle entre os pagos, já entre os livres existe o MySQL e o PostgreSQL.
Toda vez que você utiliza um software aplicativo, um sistema de informação, os dados estão sendo armazenados por um SGBD.
Data Warehouse
Data Warehouses tem como tradução literal “Armazém de dados” e segue sua função que é armazenar dados. No entanto, você deve se perguntar, qual é a diferença entre ele e um banco de dados? Ainda que um Data Warehouse possa utilizar um banco de dados relacional, o objetivo deste armazém é armazenar dados para se realizarem consultas.
De uma maneira simples, são bancos de dados analíticos, projetados para armazenar os dados de fontes diversas, já transformados e preparados para serem explorados por aplicações de tomada de decisão. Os Data Warehouses também podem ser compreendidos como centralizadores de dados, uma vez que são alimentados por diversas fontes de dados. Pense em uma organização que utilize um software de gestão comercial, gestão financeira e complementarmente utilize as redes sociais. Em um Data Warehouse é possível concentrar todos esses dados, integrando-os e permitindo que sejam as mais diversas análises. Inclusive para aplicações de mineração de dados e construção de Dashboards.
Neste momento não se assuste! O próximo capítulo é dedicado para Data Warehouse e o Capítulo 3 para Dashboards.
NoSQL
Em cenários de dados, um componente relativamente atual são os bancos de dados NOSQL (Not Only SQL – Não apenas SQL), que surgiram nos anos 2000, a partir da ascensão de grandes empresas da Internet como Amazon e Google, que cada vez mais produziam dados gradativamente, tendo a necessidade de escalabilidade em escrita e principalmente leitura de dados após o aumento de tecnologias voltadas à nuvem.
De modo geral, a principal vantagem do emprego de bancos de dados NOSQL é a utilização do particionamento dos dados horizontal, ao contrário dos bancos relacionais, que os fazem verticalmente, isto significa que em bancos NOSQL, os dados podem ser distribuídos de maneira independente sem que seja necessário enviar todo um conjunto para um determinado nó ou disco. Através do modo com o qual os dados são armazenados em NOSQL, é possível que os dados sejam particionados e distribuídos de forma mais ágil do que os tradicionais bancos relacionais, esta diferença fica visível através da figura a seguir.
FONTE: O autor (2018)
Neste momento, você pode estar um pouco assustado com tanta terminologia e coisa nova. No entanto, gostaríamos de tirar alguns minutos para falar sobre carreira. Afinal, dominar tanta tecnologia deve ter algum benefício, não é mesmo?
As profissões e os dados
As profissões ligadas à tecnologia mudaram a última década, desde novas profissões criadas, até mesmo a alterações na maneira com que esses profissionais atuam (horários flexíveis, home office, entre outros). O fato é que os profissionais de tecnologia irão continuar em alta e dominando o mercado de trabalho nos próximos anos, porém é estar consciente que são diversas áreas e que estão em constante mutação. Ao contrário do que se previa, os avanços trazidos pela informática e a automação têm ampliado a oferta de vagas de emprego nos mais diversos ramos. Por sinal, especialistas apontam que há muitas profissões ainda desconhecidas, que vão surgir nesta ou nas décadas seguintes, por conta das demandas e inovações a serem experimentadas pela sociedade. Mas há cargos que já estão sendo oferecidos e procurados pelas empresas. A seguir veremos algumas das principais carreiras das tecnologias em ascensão, que estão diretamente ligadas à análise de dados, mas é importante destacar que em algumas empresas alguns destes cargos estão agrupados e em outras desmembrados em outras profissões e níveis de carreira (Trainne, Júnior, Sênior, Pleno). Por isso, o profissional deve se preparar, investir na sua formação e estar atento às oportunidades.
Cientista de dados
Quando se fala de geração de dados em larga escala, Big Data, Data Mining, este será o profissional responsável por extrair conhecimento desses dados. É o profissional que alia conhecimentos de software, a gestão comercial, estatística e matemática para encontrar soluções para entender o que interessa e pode ser útil para os negócios dentro do imenso volume de informações que circula na internet. Este tipo de profissional está apto a atuar em empresas de vários setores, onde muitas vezes um outro pré-requisito pode ser o domínio sobre o segmento de atuação da empresa. No setor de ciência de dados os salários estão entre R$ 9 mil e R$ 15 mil, além de ter uma grande procura mundial por este profissional, a escassez leva a grandes empresas investirem até mesmo na criação de robôs para codificarem.
FONTE: <https://bit.ly/2EDaV0v>. Acesso em: 1 nov. 2018.
Administrador de banco de dados
Tendo como nome mais famoso DBA (Database Administrator), o administrador de banco de dados é o profissional responsável por cuidar de todos os fatores que envolvem os bancos de dados de uma organização, desde a tecnologia que está sendo implementada, até mesmo, em alguns casos, saber se o ar-condicionado está funcionando bem e que o servidor não irá desligá-lo por conta disso. O salário de DBA varia entre R$4,7 mil até R$15 mil, destacando-se para a profissão um aumento de 88% quando se trata da carreira de DBA júnior.
Analista de business intelligence
É o profissional responsável por controlar e analisar as iniciativas do cliente no ambiente digital, bem como seus indicadores e metas. É o responsável por realizar análises micro e macroscópicas do mercado a fim de otimizar a gestão dos negócios. A partir da análise de dados, o profissional de BI define novos padrões e melhores práticas de desenvolvimento, além de identificar bases de dados que serão fontes de informação para o crescimento da empresa.
Um profissional especializado em business intelligence é um dos mais procurados pelos mais diversos setores da indústria, desde bancos até mesmo companhias biomédicas. O salário de um profissional deste setor varia em torno de R$ 5 mil até R$20 mil.
Diretor de transformação digital
É o profissional que lidera as iniciativas relacionadas à atualização das empresas no mundo digital. Trabalha com e-commerce, marketing digital e Tecnologia da Informação (TI), buscando conexões com consumidores que utilizam a internet e as redes sociais.
Este tipo de profissional atua principalmente em grandes empresas de varejo e bancos. Salários podem chegar até a R$ 65 mil para os mais bem qualificados.
Gerente de expansão em TI
É o perfil profissional que projeta o desenvolvimento de produtos e negócios (funções integradas e programa as abordagens com base em dados de mercado, tecnologia e infraestrutura), combinando engenharia, design, análise, gerenciamento de produtos, operações e marketing. O foco é sempre a área digital.
É um profissional requisitado por grandes organizações e startups. Salários podem ir de R$ 15 mil a R$ 25 mil.
Analista de mídias digitais
Como vimos até agora e continuaremos cada vez mais as redes sociais estão impactando na tomada de decisão das empresas. O profissional de mídias digitais tem como ferramenta de trabalho as redes sociais, como o Facebook, o Twitter, o Instagram, entre outras. Objetivo é conhecer o máximo possível dos usuários e criar perfis de consumidores para oferecer a eles o que buscam. Chances ampliadas para quem tem formação básica em marketing e comunicação social. Este tipo de profissional atua nas mais diversas organizações, onde os salários podem chegar a R$ 6 mil.
Segurança da Informação: esta é uma área que foge do foco do nosso livro e do curso, mas note que até o momento foram abordadas as mais diversas profissões e as mais diversas fontes de dados. Assim, o profissional responsável por garantir a segurança no armazenamento e no acesso a dados o torna uma importante profissão na atualidade, bem como uma profissão em ascensão nos próximos anos. Este profissional consiste na proteção da informação de vários tipos de ameaças para garantir a continuidade do negócio, minimizar o risco ao negócio, maximizar o retorno sobre os investimentos e as oportunidades de negócio. Tem como perfil, o profissional que gerencia as oportunidades de aplicação de tecnologia e interage com outras áreas de maneira a assegurar a segurança das informações da empresa. O salário na área de segurança da informação varia de R$4 mil até R$20 mil.
FONTE: : <https://bit.ly/33wfwwb>. Acesso em: 21 jan. 2019.
Excel – A eterna ferramenta de business intelligence
Esta poderia ser apenas uma menção honrosa a uma ferramenta que completa mais de 30 anos de existência, mas não! É real! O Microsoft Excel se torna quase imbatível quando o tema é geração de relatórios. Neste exato momento milhares de pessoas estão gerando relatórios no Excel enquanto outras milhares estão estudando como fazê-lo. O Visicalc, desenvolvido por Dan Bricklin, conhecido como o “pai das planilhas eletrônicas”, foi o precursor das planilhas eletrônicas e também pela utilização das planilhas dos computadores pessoais. Na época, os computadores, que existiam custavam cerca de R$15 mil reais, também não existia a internet (pelo menos não como a conhecemos hoje), com poucos softwares de gestão e assim, afinal, para que comprar um computador? Nesse sentido, as planilhas eletrônicas justificaram o investimento e o uso das planilhas eletrônicas nas organizações passaram a justificar o investimento, pois além de armazenarem os dados sobre a gestão das empresas, tornaram-se as primeiras ferramentas de inteligência de negócios e suporte à decisão.
No entanto o ano agora é 2018, passam mais de 30 anos desde a criação das planilhas e há uma imensidão de ferramentas computacionais para gestão de empresas e suporte à decisão. Por que então, o Excel ainda é tão utilizado? São diversos fatores que fazem a ferramenta obter tanto número de usuários. O principal, com certeza, é a sinergia do Pacote Office com o sistema operacional Windows, que apenas na versão 10 alcançou 270 milhões de usuários em todo mundo.
Segundo Marques (2017), o Excel é a ferramenta que é imensamente utilizada pelas empresas para os mais diversos tipos de funcionalidades. Independentemente do porte ou segmento da organização, esta é uma ferramenta altamente difundida no ambiente empresarial, pois oferece infinitas possibilidades para manter os processos automatizados e organizados. Os recursos do Excel permitem que o usuário faça cálculos complexos, principalmente aqueles que envolvem a área financeira de um negócio. Além disso, é possível criar uma planilha de gastos, uma planilha para controlar o fluxo de caixa, calcular preços dos produtos e serviços oferecidos pela empresa, registrar os pagamentos, toda a parte contábil da organização, entre outras funcionalidades.
Outro fator muito impactante no uso da ferramenta é o fato das empresas comumente utilizarem softwares ERP para realizar a gestão de todos os processos organizacionais, como, por exemplo, o SAP. Este tipo de software é informalmente chamado de “engessado”, pois ao invés de se adaptar às rotinas da empresa é a empresa que se adapta ao funcionamento do software. O fato é que muitas vezes as empresas precisam gerar relatórios específicos que atendam às suas necessidades particulares e estes relatórios não são fornecidos pelo software ERP, a empresa pode até fazer uma requisição e solicitar que seja implementado, mas isso envolve tempo e alto custo. Em contrapartida, os ERPs fornecem diversos relatórios sobre os módulos (financeiro, comercial, gestão, estoque, entre outros) e estes mesmos relatórios podem ser importados no formato de planilhas eletrônicas. Uma vez tendo acesso aos dados através de planilhas, estes são integrados, também em planilhas. Cabe à empresa gerar seus próprios relatórios, importando várias planilhas e consolidando e explorando utilizando os mais diversos recursos. A figura a seguir mostra uma visão geral dos gráficos gerados pelo Excel, pode-se notar que há uma diversidade de gráficos: pizza, barra, geográfico, pivot table, entre muitos.
Neste momento, você deve se perguntar: Eu já conheço tudo sobre Excel! Por que então tanta tecnologia se o Excel resolve todos os meus problemas? O Excel é de fato um canivete suíço dos dados, mas utilizá-lo, com certeza, não é o melhor caminho para a análise dos dados. O próprio exemplo da importação de diversas planilhas de um ERP já nos demonstra que deve haver um grande esforço humano para realizar um relatório de integração. Com o Excel o esforço é dobrado, afinal não há mecanismos computacionais para a integridade dos dados armazenados, ou seja, isto tem que ser feito manualmente, levando em conta principalmente quando se trata de diversas fontes.
Neste livro aprenderemos como fazer a integração de diversas fontes de dados, utilizando os métodos e ferramentas corretas, que uma vez integradas ampliam o poder de tomada de decisão. E, falando nelas na próxima seção, você verá todo o poder que estas ferramentas possuem no apoio à tomada de decisão.
Até o momento, você já aprendeu o que é SGBD, Data Warehouse, Big Data, Data Mining, mas afinal em meio a tanta tecnologia, o que é business intelligence? A grande questão que vimos até agora é que os dados estão mudando a maneira que nos relacionamos com a tecnologia e principalmente, entre nós mesmos. Sobre tudo que falamos até o momento, imagine o volume dos dados gerados revertidos em prol das organizações, que um gestor consiga ter na palma de sua mão os dados de todos os sistemas da empresa (ERP, Vendas, Mobile) integrados aos dados de suas redes sociais, permitindo a tomada de decisões sobre as mais diversas perspectivas, de forma simples, esse poder dos dados é business intelligence.
O conceito de business intelligence já estava presente nas organizações e começou a ser conhecido na década de 1980, a partir de publicações realizadas pelo Gartner Group, uma importante empresa americana que desenvolve tecnologias e pesquisas relacionadas à tecnologia e inovação. Em sua tradução literal, business intelligence tem como significado “inteligência de negócios”, é uma tecnologia que permite a transformação de dados em informações quantitativas e importantes para a tomada de decisão da empresa. Segundo Tyson (1986), é um processo que envolve a coleta, análise e validação de informações sobre concorrentes, clientes, fornecedores, candidatos potenciais à aquisição, candidatos à joint-venture e alianças estratégicas. Incluem também eventos econômicos, reguladores e políticos, que tenham impacto sobre os negócios da empresa. O processo de business intelligence analisa e valida todas essas informações e as transforma em conhecimento estratégico.
Para Olszak e Ziemba (2007), em uma organização, em nível estratégico, os sistemas de business intelligence tornam possível a definição de metas e objetivos, assim como o seu respetivo acompanhamento, permitindo a realização de diferentes relatórios. Em nível tático permitem otimizar ações futuras e modificar aspectos organizacionais, financeiros ou tecnológicos do desempenho da organização, a fim de ajudar a alcançar os seus objetivos estratégicos de uma forma mais eficaz. Por último, em nível operacional, os sistemas de business intelligence são utilizados para executar análises ad-hoc e responder a questões relacionadas com operações das atividades da organização. Será difícil encontrar uma organização bem-sucedida que não tenha aproveitado os sistemas de business intelligence para o seu negócio. Como tal, tem se assistido a uma crescente procura de sistemas de business intelligence em diversas áreas, como o transporte, os serviços bancários, a saúde, a indústria de distribuição e fabricação, o retalho, as telecomunicações, entre outros. Contudo, as necessidades das organizações variam conforme a natureza do seu negócio e, assim, as necessidades dos sistemas de business intelligence variam conforme os requisitos.
Neste momento, você deve pensar que o conceito de business intelligence se aplica apenas a grandes organizações, com milhares de funcionários e que só haverá este cenário quando se interligam todos os dados. Na verdade, mesmo que seja um conceito amplo e pode ser aplicado nos mais diversos segmentos e nos próprios setores de uma empresa, como venda, marketing, faturamento, entre outros.
Da maneira que falamos até agora faz com que você pense que business intelligence trata apenas do fluxo organizacional dos dados, porém não é apenas um conceito relacionado à administração de empresas, mas sim a um conjunto de técnicas e processos, alinhados com tecnologia que transformam uma grande quantidade de dados brutos em informação e conhecimento que podem auxiliar no suporte à tomada de decisão.
O processo de geração de conhecimento através de business intelligence é realizado pelo emprego de tudo que foi visto até agora, desde a coleta dos dados até a extração de conhecimento deles. A figura a seguir mostra um pouco desse processo. A etapa inicial é sempre dada pela coleta dos dados. Geralmente, a principal fonte dos dados são os sistemas transacionais utilizados pela empresa (ERP, CRM, SAAS), mas pode haver outras fontes integradas. Posteriormente é realizada a etapa de Data Warehousing, em que os dados são integrados e limpos e armazenados em um banco de dados analítico (armazém de dados). Uma vez estes dados estando armazenados, haverá uma infinitude de maneiras de explorá-los, seja através de consultas OLAP, ou pela realização de processos de Data Mining. Não se assuste, nem tenha pressa, vamos aprender a construir nosso próprio Data Warehouse, no Capítulo 2 e como extrair conhecimento, no Capítulo 3.
FONTE: O autor (2018)
Entre as diversas maneiras de explorar um Data Warehouse é por meio de Dashboards, afinal o objetivo deste livro é que você consiga gerar Dashboards interativos integrando as mais diversas aplicações. Você já sabe que as pessoas e organizações estão gerando uma gama de informações diariamente, trazendo diversos desafios de armazenamento e descoberta de conhecimento. Neste tópico iremos discutir os principais cases que envolvem a análise de dados.
A fralda e cerveja
Toda vez que se fala de Data Mining, Big Data ou Business Intelligence é impossível deixar este case de lado, sendo este quase folclore na história dos dados. Esta história começa com combinações perfeitas em uma compra, como quem compra pão → compra manteiga ou quem compra café → compra leite. No entanto, ainda que os processos de extração de conhecimento permitam extrair tal informação vem a pergunta: Isso não é óbvio?
O fato é que uma das maiores redes de hipermercados norte-americana coletou os dados e armazenou no formato na forma de Basket. Ou seja, para cada venda são registrados quais produtos foram vendidos em um formato binário. O quadro a seguir mostra como esses dados são formatados.
Nos anos 1990, a então rede de hipermercados, a partir da análise de um grande volume de informações, foi possível gerar uma associação entre dois produtos: fralda e cerveja.
FONTE: <https://bit.ly/3d56A3l>. Acesso em: 10 dez. 2018.
Obter tal informação foi de extremo valor para a tomada de decisão, afinal permite além de maior divulgação dos produtos, uma realocação dos produtos próximos no mercado. Quando se vai além dos produtos vendidos e se cria um Dashboard com a integração desses dados com o aspecto temporal (dia da semana, hora, mês etc.) e com perfil de clientes (idade, sexo etc.), a análise chegou à conclusão que homens adultos (pais) que compram fraldas (para seus filhos) às sextas-feiras, também compram cervejas.
Este além de ser um dos principais cases da área de análise de dados, serve como motivação para que você possa enxergar o mundo com novos olhos. Afinal, você já parou para se perguntar:
Como as livrarias recomendam livros?
Como as músicas são recomendadas no Youtube?
Como o Google sabe a próxima palavra que eu ia digitar?
Como eu consigo fazer isso no meu sistema?
Como funcionam as regras de associação na prática?
A descoberta de regras de associação em bancos de dados relacionais ou data warehouses é uma das tarefas de mineração de dados (data mining) que possui o maior número de aplicações práticas. Este artigo inicia uma série de trabalhos que terão o objetivo principal de demonstrar como esta nova tecnologia pode ser aplicada em diferentes áreas de conhecimento.
A área de Ciência da Computação que tem por objetivo oferecer estratégias automatizadas para a análise de grandes bases de dados de empresas, procurando extrair das mesmas informações que estejam implícitas, que sejam previamente desconhecidas e potencialmente úteis. A Mineração de Dados surgiu no início dos anos 1990, a partir da reunião de ideias provenientesde diferentes áreas como inteligência artificial, banco de dados, estatística, e visualização de dados. A principal motivação para o surgimento da mineração de dados encontra-se no fato de as organizações estarem armazenando de forma contínua uma enorme quantidade de dados a respeito de seus negócios nas últimas décadas. O conhecimento obtido pelas técnicas de mineração de dados é geralmente expresso na forma de regras e padrões.
Devido a sua grande aplicabilidade, as regras de associação encontram-se entre um dos mais importantes tipos de conhecimento, que podem ser minerados em bases de dados. Estas regras representam padrões de relacionamento entre itens de uma base de dados. Uma de suas típicas aplicações é a análise de transações de compras: market basket analysis, um processo que examina padrões de compras de consumidores para determinar produtos que costumam ser adquiridos em conjunto. Um exemplo de regra de associação, obtida a partir da análise de uma base de dados real, que registra os produtos adquiridos por famílias cariocas em suas compras mensais, é dado por: {minipizza semipronta} Þ {suco de fruta em pó}. Esta regra de associação indica que as famílias que compram o produto {minipizza semipronta} tem maior chance de também adquirir o produto {suco de fruta em pó}.
Introdução às regras de associação
O problema da mineração de regras de associação foi primeiramente apresentado no ano de 1993. Nesta época, as regras eram mineradas a partir de bases de dados de transações (ou bases transacionais). As definições formais de regra de associação e base de dados transacional são apresentadas a seguir.
Seja I = {I1,I2,...In} um conjunto de itens. Seja D uma base de dados de transações, em que cada transação T é formada por um conjunto de itens onde T Í I. Cada transação possui um identificador chamado TID. Uma regra de associação é uma implicação da forma A Þ B, onde
A e B podem ser conjuntos compostos por um ou mais itens, A Ì I, B Ì I, e A C B = Æ. A é chamado de antecedente da regra e B é chamado de consequente.
Dada uma regra A Þ B, a sua medida de suporte (Sup) representa a porcentagem de transações da base de dados que contêm os itens de A e B, indicando a relevância dela. Já a sua medida de confiança (Conf) representa, dentre as transações que possuem os itens de A, a porcentagem de transações que possuem também os itens de B, indicando a validade da regra. O problema da mineração de regras de associação, conforme definido originalmente em 1993, consiste em encontrar todas as regras de associação que possuam suporte e confiança maiores ou iguais, respectivamente, a um suporte mínimo (SupMin) e uma confiança mínima (ConfMin), especificados pelo usuário.
Para explicar o funcionamento deste processo, será apresentado um exemplo baseado numa pequena base de dados que armazena as compras efetuadas por clientes de um supermercado hipotético (listagem a seguir).
TID Produtos comprados
------------------------------------------------------
1 biscoito, cerveja, chá, salaminho
2 cerveja, couve, linguiça, pão, queijo
3 café, brócolis, couve, pão
4 brócolis, café, cerveja, couve, pão, salaminho
5 brócolis, café, couve, pão, refrigerante
6 couve, linguiça
Observe que cada registro da base de dados armazena a relação de produtos adquiridos por um cliente específico. Um exemplo de regra de associação que poderia ser minerada nesta base de dados, através da utilização de uma ferramenta de data mining, é dado por: {cerveja} Þ {salaminho}. Note que duas das seis transações que compõem a base contêm os produtos {cerveja} e {salaminho}. Desta maneira, o suporte da regra {cerveja} Þ {salaminho} pode ser calculado da seguinte forma: 2 ¸ 6 = 33,33%. Observe agora que na base de dados, existem duas transações que contêm os produtos {cerveja} e {salaminho} juntos e três transações que contêm o produto {cerveja}. A confiança da regra {cerveja} Þ {salaminho} pode então ser calculada da seguinte maneira: 2 ¸ 3 = 66,67%. Este valor indica que 66,67% dos consumidores que compraram {cerveja} também compraram {salaminho}.
Outro índice estatístico comumente utilizado para definir o grau de interesse de uma regra de associação é denominado lift. O lift de uma regra de associação A Þ B indica quanto mais frequente se torna B, quando A ocorre. Esta medida é computada por: Lift(A Þ B) = Conf(A Þ B) ÷ Sup(B). O lift da regra hipotética {cerveja} Þ {salaminho} é dado por: Conf({cerveja} Þ {salaminho}) ÷ Sup({salaminho}) = 66.67% ÷ 33.33% = 2. O resultado deste cálculo indica que os clientes que compram {cerveja} têm uma chance duas vezes maior de comprar {salaminho}.
Os primeiros softwares para mineração de regras de associação começaram a ser desenvolvidos em meados da década de 1990, ainda em ambiente acadêmico. Hoje em dia já existem algumas dezenas de ferramentas comerciais capazes de minerar este tipo de padrão, desenvolvidas por grandes empresas. As ferramentas para mineração de regras de associação funcionam, tipicamente, da seguinte maneira: o usuário especifica a base de dados que deseja minerar e estabelece valores mínimos para as medidas de interesse como o suporte, a confiança e o lift (muitas ferramentas utilizam ainda outras medidas de interesse para avaliar as regras de associação). Em seguida, a ferramenta executa um algoritmo que analisa a base de dados e gera como saída um conjunto de regras de associação com valores de suporte e confiança superiores aos valores mínimos especificados pelo usuário. Note que este processo é diferente do utilizado pelas aplicações OLAP e pelos métodos estatísticos tradicionais, em que o especialista testa a sua hipótese contra a base de dados. No caso da mineração de dados, as hipóteses e os padrões são automaticamente extraídos da base de dados pelas ferramentas.
FONTE: <https://bit.ly/3k834sk>. Acesso em: 19 out. 2018.
O presidente e os dados
Você, com certeza, sabe que Barack Obama venceu a eleição no ano de 2008 e também repetiu o feito no ano de 2012, pode até saber que o Hit “Yes, We Can” bateu recorde de acessos no Youtube, o que você talvez não saiba é que houve muita coleta, pré-processamento e, principalmente, muita análise de dados por trás dessa trajetória. Grandes volumes de dados foram coletados e processados para futuramente serem analisados nas campanhas.
Nas eleições presidenciais de 2008, a equipe de Barack Obama atribuiu a cada eleitor norte-americano pontos baseados na probabilidade de aquela pessoa realizar duas ações distintas e essenciais para a sua campanha: preencher uma cédula de votação e, mais importante, esta cédula ser um voto para o democrata. Estes pontos eram derivados de um volume de dados sem precedentes, gerado por um contínuo trabalho de pesquisa. Para cada debate semanal por estado norte-americano, os call centers da campanha conduziam de 5 mil a 10 mil entrevistas curtas que rapidamente verificavam as preferências do eleitor, além de mil entrevistas em versão longa. Ao realizar análises em cima de tais dados, obteve-se mais de 100 variáveis que permitiram à equipe de governo pautar os rumos da campanha e deu um ótimo resultado na campanha de 2012.
Já para as eleições de 2012, a quantidade de pessoas destinadas para realizar análises foi cinco vezes maior e se multiplicou por cinco em relação ao ano anterior. Esta equipe realizou medições a partir de uma megabase (uma base de dados de grandes dimensões), podendo determinar, por exemplo, que um jantar com o presidente Obama e o ator George Clooney era o ideal para arrecadar fundos entre mulheres de 40 e 49 anos. Análises detalhadas deste estilo permitiram ao candidato alcançar cifras recordes de arrecadação. Além disso, o Big Data foi muito importante na hora de conhecer a intenção de votos real no estado onde o triunfo do Obama era mais incerto, entre eles, Ohio. E por fim, o resultado foi certo, Obama conseguiu se reeleger.
Você deve se perguntar, em 2016: Por que não funcionou? Em um primeiro momento, temos que ter em mente que estamos em uma revolução tecnológica. Assim como Gordon G. Moore afirmou em 1965, na conhecida Lei De Moore “o número de transistores dos chips teria um aumento de 100%, pelo mesmo custo, a cada período de 18 meses”, o que queremos dizer é que a tecnologia muda, e o que é novidade hoje pode ser passado em questão de pouco tempo, e com relação aos processos de coleta e análise de dados não será diferente. Apenas para não deixar de lado a eleição do atual presidente americano Donald Trump em 2016 com a empresa Cambridge Analytica, que fez a análise de 198 milhões perfis de eleitores que utilizaram a estrutura da empresa Amazon.
Dados o novo petróleo
A análise de grandes quantidades de dados desestruturados é uma das quatro grandes tendências da tecnologia e, segundo Anjul Bhambhri, VP de projetos de Big Data da IBM, isto será tão importante para o mundo quanto o petróleo.
“Todo clique, tweet, site navegado está sendo analisado. E estes dados abrem oportunidades inimagináveis. Big Data é o novo óleo, o novo recurso natural”, afirmou.
De acordo com a companhia, em 2020, o mundo terá cerca de 40 zetabytes (21 zeros) de dados para serem analisados contra 7 zetabytes atuais. Isto dará a chance para que as empresas consigam fazer análises semânticas de sentimentos, gostos e prever necessidades.
Além do Big Data, outras três tecnologias foram apontadas como essenciais para os próximos anos: computação na nuvem, mobilidade e social. Para o vice-presidente do centro de desenvolvimento da IBM, Stephen Farley, a competitividade está focada em “analisar o consumidor (Big Data), armazenar os dados dos clientes de forma simples e barata (cloud computing), com acesso às informações na ponta dos dedos (mobilidade) e comunicando as descobertas (social)”.
“O mundo está se tornando programável e o desenvolvimento de softwares baseados nestas tendências dominará as empresas. Estas novidades estão
redesenhando a economia mundial”, afirmou. “Todas as companhias terão de adotar estas tecnologias se quiserem oferecer diferenciais”, completou.
Elementar, meu caro Watson!
Quando se fala em coleta, pré-processamento e análise de dados, surgem novas plataformas de armazenamento na nuvem. Grandes empresas da tecnologia têm investido nesse segmento como uma forma de oferecer processamento pago por hora, são exemplos o Azure (Microsoft), Google Cloud, Amazon AWS e o IBM Watson. Este último tem se destacado em pesquisas acadêmicas, inclusive em um case recente e nacional.
Nos últimos anos, o Brasil foi marcado por dezenas de escândalos de corrupção, bem como uma série de notícias sobre o combate a ela. Criado em 2007 pelo Ministério da Justiça do Brasil, por meio do Departamento de Recuperação de Ativos e Cooperação Jurídica Internacional da Secretaria Nacional de Justiça, o Laboratório de Tecnologia contra Lavagem de Dinheiro (LAB-LD) apoia investigações complexas sobre corrupção e lavagem de dinheiro.
Utilizando o IBM Watson, investigações financeiras – que dependem de dados como movimentações e extratos de contas bancárias, troca de e-mails, registros telefônicos e de empresas, além de informações vindas de redes sociais – podem ser realizadas com muito mais facilidade. Neste caso, foi possível utilizar a ferramenta para consolidar diversas fontes de dados e em cima destes dados realizar buscas semânticas e por palavras-chave. Este sistema inteligente explora o conceito de metadados sobre apelidos de suspeitos, parceiros e cúmplices, bem como gírias de atividades criminosas, um exemplo disso é ao registrar o termo ‘farinha’ retornar informações sobre cocaína.
No passado, as investigações exigiam analistas altamente qualificados que gastavam milhares de horas debruçados em planilhas, e-mails e publicações em redes sociais. Hoje, os investigadores gastam menos tempo na identificação de dados relevantes e se empenham mais nas análises (BARBOSA, 2016). Com a ajuda das soluções da IBM, a REDE-LAB alcançou o objetivo de automatizar os processos de mineração de dados complexos — permitindo que os investigadores acelerassem seu trabalho de forma significativa. Segundo o coordenador do projeto, Roberto Zaina, da IBM (2014, p. 2 ), “Estimamos que o IBM Watson Explorer nos permitirá acelerar exponencialmente nossas investigações. A identificação de ativos ilícitos nos obriga a avançar mais rapidamente do que os criminosos, e as nossas soluções da IBM estão nos ajudando a fazer exatamente isso”.
Prezado aluno!
Chegamos ao fim do Capítulo 1, esperamos que tenha sido proveitoso para você. Durante este capítulo você pôde aprender sobre o volume de dados gerados no mundo, espero que tenha aproveitado esse momento para refletir sobre esse tipo de aplicação no seu cotidiano e tenha tido boas ideias de aplicações.
Durante o transcorrer do livro, discutimos tópicos atuais sobre análise de dados, pois serão importantes para a compreensão e discussão dos métodos utilizados. Nós também conhecemos os principais nomes da história dos dados e suas contribuições tecnológicas, mas não iremos parar por aqui, tudo que você viu será colocado em prática no Capítulo 2.