Olá, estudante, tudo bem? Agora que você já foi introduzido ao universo da Ciência de Dados, nos aprofundaremos nos conceitos gerais de dados, informação e conhecimento. Portanto, o objetivo desta lição é proporcionar uma compreensão clara e aprofundada dos conceitos de dados, informação e conhecimento, elementos fundamentais na Ciência de Dados. Durante a lição, você será introduzido à definição de dados como o ponto inicial de todo o processo analítico, apresentando sua natureza bruta e descontextualizada.
Em seguida, abordaremos como a organização e o processamento desses dados resultam na geração de informação, o que fornece não só significado, mas contexto aos números e registros. Por fim, discutiremos como a interpretação das informações, combinada com experiência e expertise, transforma-se em conhecimento aplicável, essencial para a tomada de decisões estratégicas nas organizações.
Ao final desta lição, você, futuro técnico em Desenvolvimento de Sistemas, será capaz de diferenciar esses conceitos e compreender como cada um deles contribui para o ciclo de vida dos dados bem como para o desenvolvimento de soluções inovadoras e baseadas em dados.
A boa utilização de dados, informação e conhecimento na Ciência de Dados resolve um dos principais desafios enfrentados no desenvolvimento de software: a tomada de decisões embasadas e assertivas ao longo do ciclo de vida do projeto. Muitas vezes, desenvolvedores e gestores de projetos lidam com incertezas tanto no que diz respeito ao comportamento dos usuários quanto à performance e à escalabilidade do sistema.
Sem uma análise adequada dos dados coletados, é difícil entender, de maneira precisa, o que está funcionando e onde estão os problemas. Ao transformar dados brutos em informação organizada e, posteriormente, em conhecimento, o desenvolvimento de software pode se beneficiar de insights que permitam ajustes rápidos e direcionados. Essa situação impacta diretamente na priorização de funcionalidades, na identificação de gargalos de performance e na antecipação de necessidades dos usuários, otimizando o processo de desenvolvimento e a qualidade final do software. Assim, a Ciência de Dados atua como uma aliada estratégica, ao possibilitar decisões mais seguras, baseadas em evidências, e promover inovações contínuas dentro dos projetos.
Agora, sabendo disso, vamos aprender mais desse assunto?
Vamos entender como a diferenciação entre dados, informação e conhecimento, na Ciência de Dados, pode ser utilizada na prática? Para isso, utilizaremos como exemplo uma situação hipotética. No case de hoje, a empresa Tech Nova enfrentava o desafio de entender o comportamento dos usuários e melhorar a experiência em sua plataforma de e-commerce, devido à queda na conversão de visitantes em compradores. Para resolver tal problema, a empresa adotou uma abordagem baseada em Ciência de Dados, buscando aprimorar a tomada de decisões e otimizar o produto.
A empresa coletou dados brutos de diversas fontes, como registros de navegação e transações. Esses dados foram processados e organizados, permitindo à equipe identificar padrões comportamentais e pontos críticos no fluxo de compra, como abandono de carrinho e feedbacks dos clientes. A partir disso, a Tech Nova utilizou o conhecimento adquirido com a análise, para tomar decisões estratégicas. A equipe de desenvolvimento, munida dessas informações, implementou melhorias na interface do usuário, otimizou o tempo de carregamento das páginas mais acessadas e redesenhou o processo de finalização da compra, tornando-o mais intuitivo e eficiente.
O resultado foi impressionante: em poucos meses, a taxa de conversão da plataforma aumentou em 30%, e a satisfação dos usuários também apresentou crescimento significativo. A empresa percebeu que, ao aplicar de forma correta os conceitos de dados, informação e conhecimento, foi capaz de transformar um problema crítico em uma oportunidade de inovação, promovendo melhorias contínuas em sua plataforma, consolidando-se como uma empresa orientada a decisões baseadas em dados.
Assim, através desse case, podemos notar o quanto uma abordagem baseada em Ciência de Dados pode auxiliar o dia a dia do desenvolvedor. Vamos aprender mais?
Na lição anterior, entendemos que dados são elementos brutos e não processados que representam fatos, números ou eventos sem um contexto específico. Reforçando a definição de Basso (2020), podemos simplificar o termo “dados” como medições e observações. Assim, de maneira geral, os dados são capazes de assumir diversas formas, como números, palavras, medições ou sinais capturados por sensores. Por si mesmos, eles não têm um significado compreensível, até serem organizados ou interpretados.
Na Ciência de Dados, eles são considerados a matéria-prima essencial para qualquer análise e servem como base na extração de informações e, eventualmente, na construção do conhecimento.
Na Figura 1, temos a pirâmide de transformação de dados em conhecimento, a qual ilustra o processo pelo qual dados brutos são refinados, passando por etapas de organização e análise, até se tornarem informações e, por fim, conhecimento valioso.
A transformação de dados em informação é um processo fundamental na Ciência de Dados, no qual os dados brutos, inicialmente desestruturados e sem contexto, são organizados, classificados e preparados para serem compreendidos bem como utilizados de maneira eficaz. Basso (2020) complementa que esses processos de transformação visam tornar os dados um modelo ideal para aplicação, assim, eles passam por várias etapas que garantem sua consistência, precisão e relevância. Esse processo de transformação envolve:
Coleta dos dados: informações são obtidas de diversas fontes, como banco de dados, sensores, logs de sistemas, ou transações em plataformas digitais. Esses dados são, em sua forma inicial, desorganizados e não estruturados, sendo considerados matéria-prima para qualquer análise.
Limpeza dos dados: remoção de dados duplicados, incorretos ou irrelevantes. Inclui o tratamento de valores ausentes, a padronização de formatos e a correção de inconsistências. Basso (2020) define essa etapa como higienização dos dados.
Classificação e categorização: os dados são organizados de acordo com categorias ou classes específicas, facilitando sua análise e interpretação. Essa etapa pode incluir a criação de grupos de clientes por faixa etária, localização ou frequência de compras.
Estruturação dos dados: após a limpeza e categorização, os dados são estruturados em formatos que permitam sua interpretação, por meio da criação de tabelas, gráficos ou relatórios, onde os dados são organizados de forma lógica e consistente.
Um exemplo de transformação de dados em informação pode ser observado em uma plataforma de e-commerce. Nesse caso, dados brutos sobre o comportamento dos usuários, como cliques, tempo de navegação e interações, são organizados em relatórios que revelam quais produtos despertam mais interesse, em quais etapas do processo de compra os usuários abandonam seus carrinhos e quais estratégias de marketing são mais eficazes. Assim, ao ganhar contexto e significado, os dados brutos tornam-se informações aptas a serem usadas para otimizar a experiência de compra e aumentar a conversão de vendas. Com esse processo, os dados ganham valor estratégico, auxiliando na tomada de decisões mais informadas bem como na geração de insights valiosos.
A informação é o resultado da organização e contextualização de dados, possibilitando que esses dados brutos adquiram significado e possam ser interpretados. Basso (2020) define a informação como o primeiro resultado da análise, processamento e manipulação dos dados. Enquanto os dados são elementos isolados e sem um contexto claro, a informação surge quando esses dados são estruturados e conectados de maneira lógica, tornando-os compreensíveis e úteis para análises.
A utilização da informação é essencial para o processo de tomada de decisões porque as empresas podem fundamentar suas escolhas em informações extraídas de dados sobre vendas, comportamento de clientes, ou eficiência operacional, possibilitando decisões mais assertivas, baseadas em evidências e não em suposições. Por exemplo, uma empresa de varejo tem a possibilidade de utilizar as informações geradas por relatórios de vendas para ajustar seu estoque, melhorar o atendimento ao cliente ou criar campanhas de marketing mais direcionadas. Portanto, a informação, ao conferir sentido e contexto aos dados, é a chave para transformar dados isolados em conhecimentos práticos, a fim de facilitar a compreensão de problemas e a exploração de oportunidades.
Segundo Basso (2020), o conhecimento é a interpretação das informações resultante da contextualização, organização e padronização delas. Enquanto a informação representa a organização e estruturação de dados, o conhecimento vai além, sendo formado quando essas informações são analisadas de maneira crítica e integrada tanto com a prática quanto com a vivência em determinado campo.
A formação do conhecimento ocorre quando uma pessoa ou organização utiliza a experiência anterior e o entendimento acumulado para dar significado às informações disponíveis. Por exemplo, ao analisar dados de vendas e informações sobre o comportamento do consumidor, um gerente experiente pode identificar as tendências visíveis nos relatórios e, com isso, prever de que forma essas tendências se relacionam com fatores externos, como sazonalidade ou mudanças no mercado. Essa capacidade de transformar informações em ações concretas, fundamentadas na análise crítica e na experiência prévia, é o que define o conhecimento.
Além disso, o conhecimento possibilita a tomada de decisões estratégicas, pois envolve uma compreensão mais profunda e contextualizada dos dados bem como das informações. Ele possibilita identificar padrões mais sutis e aplicar soluções inovadoras, promovendo melhorias contínuas enquanto impulsiona o desenvolvimento de diversas inovações. Portanto, o conhecimento representa o estágio mais avançado no processo de análise de dados, sendo fundamental para a Ciência de Dados e o desenvolvimento de software, pois permite uma abordagem mais eficaz na resolução de problemas complexos e na tomada de decisões estratégicas.
A Ciência de Dados desempenha um papel fundamental na transformação de dados brutos em conhecimento acionável, por meio da utilização de conceitos como coleta, limpeza, classificação e análise, para extrair insights valiosos. De acordo com Basso (2020), a Ciência de Dados possui características multidisciplinares focadas na análise e no estudo dos dados, os quais podem ser estruturados ou não. Esse processo é fundamental, visto que os dados por si só são elementos desorganizados e descontextualizados, sem valor direto até serem interpretados de forma adequada. Nesse sentido, a Ciência de Dados fornece as ferramentas e técnicas para converter essas informações dispersas em um recurso estratégico, permitindo que organizações e profissionais tomem decisões não só embasadas, mas precisas.
A importância da Ciência de Dados reside em sua capacidade de transformar grandes volumes de dados em informações estruturadas, que, por sua vez, podem ser convertidas em conhecimento profundo sobre padrões, comportamentos e tendências. Esse conhecimento é essencial para otimizar processos, identificar oportunidades de mercado, prever cenários futuros e criar soluções inovadoras, seja no desenvolvimento de software, seja na melhoria de produtos ou em estratégias empresariais.
Ao aplicar algoritmos, métodos estatísticos e modelos preditivos, a Ciência de Dados ajuda a desvendar correlações e gerar hipóteses que orientam as tomadas de decisão. Ao longo desse processo, os dados são refinados e convertidos em insights acionáveis, o que, por sua vez, revelam informações importantes, além de indicar o melhor curso de ação. Como resultado, as decisões podem ser tomadas de forma informada, segura e precisa, promovendo a eficiência, a inovação e a competitividade em diversos setores. Dessa forma, podemos dizer que a Ciência de Dados é essencial para transformar dados brutos em conhecimento, sendo o motor que impulsiona o avanço tecnológico e estratégico no mundo atual.
As ferramentas e técnicas gratuitas desempenham um papel fundamental na transformação de dados em informação e conhecimento, permitindo que profissionais de Ciência de Dados realizem análises eficazes sem depender de soluções pagas. Os softwares de visualização, como Looker Studio e Tableau Public, facilitam a criação de gráficos e dashboards, o que ajuda a comunicar informações complexas de maneira clara e acessível. Essas ferramentas possibilitam a exploração visual dos dados, consequentemente, a identificação de padrões, tendências e anomalias, de forma intuitiva.
Ficou interessado nesses softwares de visualização? Confira as páginas que mencionamos, para saber mais!
No campo da análise de dados, linguagens de programação, como Python e R, desempenham um papel fundamental. De acordo com Basso (2020), a Python oferece interfaces gráficas e possui código aberto, enquanto a R é uma linguagem estatística que proporciona muita flexibilidade. Ambas contam com bibliotecas poderosas, como Pandas, NumPy e Matplotlib, que facilitam a manipulação, processamento e visualização dos dados. Essas linguagens também incorporam algoritmos de aprendizado de máquina e técnicas estatísticas, permitindo a extração de insights valiosos. Por exemplo, a biblioteca Scikit-learn, em Python, disponibiliza uma ampla gama de algoritmos para análise preditiva, classificação e clustering, essenciais à criação de modelos baseados em dados.
Dentre as técnicas estatísticas mais utilizadas, métodos como regressão linear, testes de hipóteses e análise de variância (Anova) ajudam a entender a relação entre variáveis e previsão de comportamentos futuros. Essas abordagens, acessíveis por meio de pacotes de software gratuitos, possibilitam realizar análises robustas sem a necessidade de ferramentas pagas. Quando utilizadas de forma integrada, essas ferramentas e técnicas possibilitam coleta, limpeza, classificação, estruturação e interpretação de dados, convertendo-os em informações significativas e, por fim, em conhecimento acionável.
Como futuro técnico em Desenvolvimento de Sistemas, dominar os conceitos de dados, informação e conhecimento não apenas aprimora sua capacidade de projetar soluções eficazes, mas também permite criar sistemas que extraem e organizam dados de forma eficiente, o que gera informações valiosas às organizações. O conhecimento adquirido ao longo desse processo é fundamental para a tomada de decisões estratégicas, otimização de processos e inovação no desenvolvimento de software, atendendo às necessidades dinâmicas do mercado.
Sabendo disso, agora é sua vez de aplicar os conceitos abordados nesta lição. Você realizará o processo de limpeza de dados em um conjunto fictício, com objetivo de prepará-los para análise, convertendo-os da forma bruta em um formato organizado e útil.
Para iniciar essa prática, você precisará dos seguintes requisitos:
Acesso à internet.
Um conjunto de dados simples (o arquivo dados_brutos.csv está disponível, clique aqui).
Acesso ao site GDB Online (clique aqui para acessar).
Após realizar o download do conjunto de dados, será necessário fazer o upload desse arquivo no site GDB Online, clicando no segundo item do menu da ferramenta (Upload File). No arquivo main.py, que já vem criado por padrão na ferramenta, você utilizará a linguagem de programação Python com a biblioteca Pandas, para carregar o arquivo CSV e efetuar todo o processo de transformação, limpeza e visualização dos dados, conforme Figura 2:
Agora, você receberá a explicação do que esse código da Figura 1 faz (é possível se guiar pelos comentários no código):
Remoção de linhas com valores ausentes em qualquer coluna importante: dropna() com parâmetro subset, para excluir linhas onde qualquer uma das colunas críticas esteja vazia.
Preenchimento de valores ausentes na coluna ‘idade’ com a média de idades: mantemos o preenchimento das idades com a média, caso haja algum valor ausente.
Correção do formato de e-mails (ajusta ‘emailcom’ para ‘email.com’): ajusta o formato de e-mails conforme necessário.
Padronização da data de cadastro (corrigir datas inválidas): converte para o formato de datas, tratando erros de forma adequada.
Salvamento dos dados limpos em um novo arquivo CSV: finalmente, salvamos apenas os dados que foram validados e processados.
Com essas mudanças, ao executar o código, as entradas que não têm um e-mail ou outros dados essenciais ausentes (por exemplo, idade, telefone ou data de cadastro) serão removidas, garantindo que apenas dados completos e válidos sejam salvos em dados_usuarios_limpos.csv.
E agora, qual dado foi removido? Quais dados permaneceram no arquivo de dados limpos? Se você acrescentar mais dados brutos ou alterar algum registro, o que acontece no final? Chame seus colegas e professores, analise e proponha alterações nos dados e no código, de acordo com a sua necessidade, curiosidade e dúvida. Bom trabalho!
BASSO, D. Big Data. Curitiba: Contentus, 2020.