PDF - VERSÃO DE IMPRESSÃO

Lição 4 - Tecnologias de Ciência de dados

objetivo

Olá, estudante, tudo bem?

Agora que você já foi introduzido ao universo dos tipos de sistemas de informação da ciência de dados, aprofundaremos ainda mais seu conhecimento apresentando as tecnologias usadas em ciência de dados.

O objetivo desta lição é apresentar, de forma abrangente e acessível, os principais conceitos e tecnologias relacionados à ciência de dados, capacitando você, futuro técnico em desenvolvimento de sistemas, a compreender como essas ferramentas podem ser aplicadas em diferentes contextos organizacionais. A lição abordará, inicialmente, o data mining, destacando seu papel na extração de padrões e conhecimento a partir de grandes volumes de dados. Em seguida, será introduzido o machine learning, explicando como os algoritmos podem aprender a partir dos dados e tomar decisões automatizadas.

Ao longo desta jornada, você será incentivado a refletir sobre as potencialidades e os desafios dessas tecnologias no cenário atual de transformação digital. Preparado para esta nova jornada de conhecimento?

problematização

No desenvolvimento de software, identificar padrões e tendências em grandes volumes de dados é um desafio crucial para melhorar a eficiência das soluções. Nesse sentido, tecnologias, como data mining e machine learning, são essenciais para automatizar essa análise, superando as limitações de métodos manuais tradicionais.

O data mining possibilita a extração de insights valiosos de grandes volumes de dados, ajudando a detectar padrões e anomalias que podem melhorar a experiência do usuário. Em projetos de software, essa tecnologia identifica comportamentos de uso que seriam difíceis de reconhecer manualmente, permitindo melhorias proativas nas funcionalidades e correção de falhas. Já o machine learning permite que sistemas se adaptem automaticamente a mudanças nos padrões de comportamento, aprendendo com os dados ao longo do tempo. Isso possibilita a automação de decisões complexas, como a personalização de conteúdo ou a detecção de fraudes, sem a necessidade de programação manual constante.

Portanto, podemos dizer que essas tecnologias solucionam um dos grandes desafios do desenvolvimento de software moderno: a necessidade de lidar com a crescente complexidade e quantidade de dados, permitindo que sistemas se tornem mais inteligentes, adaptáveis e capazes de tomar decisões com base em informações precisas e em tempo real.

case

Agora, vamos entender como essas tecnologias funcionam na prática? Para isso, utilizaremos como exemplo uma situação hipotética. No case de hoje, conheça a Tech Solutions, uma empresa de desenvolvimento de software voltada para o e-commerce, que buscou aprimorar a experiência de compra em sua plataforma ao implementar técnicas de data mining e machine learning. Com o aumento do volume de dados gerados pelas interações dos usuários, a equipe percebeu a importância de extrair insights valiosos para personalizar ofertas e otimizar o processo de compra.

A empresa começou o projeto coletando dados históricos de compras, cliques e preferências dos usuários. Com o uso de data mining, a equipe analisou esses dados e identificou padrões de comportamento, como produtos frequentemente comprados juntos e categorias que atraíam mais atenção em diferentes épocas do ano. Essa análise revelou comportamentos repetitivos e destacou anomalias, como picos de interesse por determinados itens, que poderiam ser utilizados em campanhas de marketing.

Com os insights obtidos, a empresa implementou machine learning para desenvolver um sistema de recomendação adaptativo. Os algoritmos foram treinados para que o sistema se ajustasse automaticamente às mudanças nas preferências dos usuários ao longo do tempo. Assim, cada cliente passou a receber sugestões de produtos personalizadas com base em seu histórico de navegação e compras.

Após a implementação do sistema, a empresa registrou um aumento significativo nas taxas de conversão e na satisfação do cliente. As vendas cresceram, e a equipe de marketing pôde direcionar suas campanhas com maior precisão, alcançando o público-alvo de forma eficaz. Portanto, esse cenário destaca a importância de você, enquanto técnico em desenvolvimento de sistemas, estar bem-informado sobre essas tecnologias. O conhecimento em data mining e machine learning permitirá que você implemente soluções inovadoras e contribua para a criação de estratégias que respondam, de forma ágil, às demandas do mercado. Ao dominar essas competências, você será uma peça-chave na transformação digital das empresas, ajudando a garantir que elas se mantenham competitivas em um ambiente em constante evolução.

Conceitualização

O data mining e o machine learning desempenham papéis importantes na análise de dados, cada um contribuindo de forma distinta para a extração de conhecimento a partir de grandes volumes de informações. O data mining é a etapa inicial do processo analítico, focando na exploração e identificação de padrões, tendências e anomalias em conjuntos de dados. Ele utiliza técnicas estatísticas e algoritmos para revelar insights ocultos que podem ser utilizados para decisões informadas e estratégias de negócios.

Por outro lado, o machine learning se concentra no desenvolvimento de algoritmos que permitem que as máquinas aprendam com os dados e se aprimorem ao longo do tempo. Essa tecnologia é essencial para automatizar a análise, possibilitando a criação de modelos preditivos que se ajustam continuamente às mudanças nos dados. Assim, enquanto o data mining oferece a base para a compreensão dos dados, o machine learning possibilita a aplicação dessa compreensão em contextos dinâmicos, como a personalização de produtos, a previsão de comportamentos do consumidor e a detecção de fraudes. Juntas, essas abordagens melhoram a eficiência da análise de dados e potencializam a tomada de decisões estratégicas em diversas áreas.

Data Mining

O data mining — ou mineração de dados — refere-se ao processo de descobrir padrões, tendências e informações úteis em grandes volumes de dados. Segundo Silva (2016), trata-se de um processo automático ou semiautomático de explorar analiticamente grandes bases de dados, com o objetivo de identificar padrões relevantes que ajudem na assimilação de informações, suportando a geração de conhecimento. Utilizando técnicas de estatística, aprendizado de máquina e inteligência artificial, o data mining permite a extração de conhecimento em diversas áreas, como marketing, finanças, saúde e ciência de dados. Entre suas aplicações, destacam-se a segmentação de clientes, a detecção de fraudes, a previsão de vendas, a personalização de produtos e a análise de sentimentos.

O processo de data mining abrange várias etapas, começando pela preparação de dados, que envolve a coleta e a limpeza, garantindo que estejam em um formato adequado para análise. Silva (2016) menciona que essa fase visa amenizar problemas comuns resultantes de processos imprecisos de aquisição de dados, como a presença de valores ausentes e ruidosos. Nessa etapa, pode-se realizar a remoção de duplicatas, o tratamento de valores ausentes e a transformação de variáveis. Na fase de exploração, os dados são analisados de forma preliminar para identificar padrões e anomalias, utilizando técnicas de visualização e estatísticas descritivas para melhor compreensão das características dos dados.

A modelagem envolve a aplicação de algoritmos de data mining para construir modelos que consigam prever ou classificar dados com base nos padrões identificados. A escolha do modelo depende da natureza do problema e dos dados disponíveis. Por fim, após a modelagem, a verificação é fundamental para avaliar a precisão e a eficácia dos modelos desenvolvidos. Isso pode ser realizado por meio de métricas, como acurácia, precisão, recall e F1-score, além da validação cruzada, que assegura que o modelo tenha bom desempenho em novos dados.

Existem diversas técnicas de data mining, como você verá a seguir:

● Classificação

Método utilizado para categorizar dados em classes predefinidas. Por exemplo, um modelo de classificação pode ser usado para identificar se um e-mail é spam ou não.

● Regressão

Técnica que estima a relação entre variáveis, permitindo prever valores contínuos. É comum em análises financeiras, como a previsão de vendas futuras com base em dados históricos.

● Agrupamento (Clustering)

Método que agrupa dados similares sem necessidade de rótulos predefinidos. É útil para segmentar clientes em grupos com comportamentos semelhantes, facilitando a personalização de estratégias de marketing.

● Associação

Técnica que busca identificar relações entre variáveis em grandes conjuntos de dados. Um exemplo clássico é a análise de cesta de compras, em que se busca descobrir quais produtos são frequentemente comprados juntos.

Para se trabalhar com data mining, você tem à disposição diversas ferramentas para facilitar o processo de análise de dados. Conheceremos as mais populares a seguir:

RapidMiner: uma plataforma de data science que oferece uma interface visual para a criação de modelos de data mining, permitindo que usuários com diferentes níveis de conhecimento técnico possam utilizar suas funcionalidades.
Weka: um software de aprendizado de máquina que fornece uma coleção de algoritmos para tarefas de data mining, além de ferramentas para visualização e pré-processamento de dados.
Orange: uma ferramenta de data mining e aprendizado de máquina que permite a visualização e análise de dados de maneira interativa, ideal para educação e exploração de novos conceitos em ciência de dados.

Essas ferramentas são projetadas para suportar as diferentes etapas do processo de data mining, tornando-o mais acessível e eficiente para profissionais e empresas que buscam extrair valor de seus dados.

Machine Learning

De acordo com Basso (2020), o machine learning — ou aprendizado de máquina — é um método de análise de dados que busca automatização do desenvolvimento de modelos analíticos, usando algoritmos que aprendem interativamente a partir de dados por meio de um processo repetitivo. De maneira geral, podemos dizer que é um ramo da inteligência artificial que permite que sistemas aprendam e façam previsões ou decisões com base em dados. Geron (2021) complementa essa ideia dizendo que o aprendizado de máquina é a ciência — e a arte — da programação de computadores de modo que eles possam aprender com os dados.

Nesse sentido, o aprendizado de máquina pode ser classificado em três categorias principais:

● Aprendizado Supervisionado

Nesse tipo de aprendizado, o modelo é treinado com um conjunto de dados rotulados, ou seja, cada entrada possui uma saída correspondente conhecida. Basso (2020 apud Machado, 2018) destaca que esse tipo de aprendizado é mais utilizado em aplicações onde dados históricos podem prever eventos futuros. O objetivo é que o modelo aprenda a mapear entradas para as saídas corretas e, posteriormente, faça previsões sobre novas entradas. Exemplos incluem a classificação de e-mails como spam ou não spam e a previsão de preços de imóveis.

● Aprendizado Não Supervisionado

Nesse caso, o modelo é alimentado com dados sem rótulos ou saídas conhecidas. Segundo Basso (2020), essa abordagem é utilizada quando os dados não têm rótulos históricos, e o sistema não sabe qual é a “resposta certa”. O objetivo é descobrir padrões e estruturas subjacentes, como a identificação de grupos semelhantes (clustering) ou a redução de dimensionalidade. Um exemplo prático é a segmentação de clientes com base em seu comportamento de compra.

● Aprendizado por Reforço

Geron (2021) define que, nesse contexto, o sistema de aprendizado é chamado de agente. O agente observa o ambiente, seleciona e executa ações, recebendo recompensas ou penalidades em troca. Assim, o objetivo do agente é maximizar a recompensa total ao longo do tempo. Essa técnica, geralmente, é aplicada em jogos e robótica, em que o agente aprende a tomar decisões por meio de tentativa e erro.

Existem vários algoritmos de machine learning que são usados para resolver diferentes tipos de problemas. Alguns dos mais comuns são árvores de decisão, máquinas de vetor de suporte (SVM), redes neurais e algoritmos de agrupamentos. Para que você entenda a diferença entre eles, a seguir, aprofundaremos brevemente em cada um deles:

Árvores de Decisão: é um modelo que utiliza uma estrutura em forma de árvore para tomar decisões baseadas em condições. De acordo com Geron (2021), o modelo é definido como algoritmos versáteis de aprendizado de máquina que podem executar tarefas de classificação e regressão. Cada nó interno representa uma pergunta sobre uma característica do dado, e cada folha representa um resultado ou uma classe. É fácil de interpretar e aplicar, mas pode ser suscetível a overfitting.
Máquinas de Vetor de Suporte (SVM): é um algoritmo que busca encontrar o hiperplano ótimo que separa diferentes classes em um espaço multidimensional. O autor Geron (2021) complementa dizendo que essas máquinas são adequadas para a classificação de conjuntos de dados complexos, porém de pequeno ou médio porte. De maneira geral, elas são eficazes em problemas de classificação e podem lidar com dados de alta dimensão.
Redes Neurais: são estruturas computacionais inspiradas no funcionamento do cérebro humano, compostas por camadas de neurônios. Geron (2021) complementa dizendo que essas estruturas são ideais para lidar com grandes tarefas altamente complexas do aprendizado de máquina, como classificar bilhões de imagens, alimentar serviços de reconhecimento da fala etc. Além disso, elas são especialmente poderosas em tarefas de reconhecimento de padrões, como imagem e voz, e podem aprender representações complexas a partir de grandes volumes de dados.
Algoritmos de Agrupamento: esses algoritmos são utilizados em aprendizado não supervisionado, pois organizam dados em grupos ou clusters, baseando-se em similaridades. Exemplos incluem K-means e hierárquico, que ajudam a identificar padrões em dados sem rótulos. Geron (2021) explica que eles detectam os grupos principais e adicionam novas características que medem a proximidade com os centros de agrupamento.

O treinamento de modelos é uma etapa crucial no machine learning, em que o modelo aprende com os dados. A validação é igualmente importante, pois garante que o modelo se ajuste bem aos dados de treinamento, ao mesmo tempo que generaliza e realiza previsões precisas em novos dados. Uma boa opção é dividir o conjunto de dados em conjuntos de treinamento, validação e teste, para avaliar o desempenho do modelo em cada etapa. Vale ressaltar que, durante o treinamento de modelos de machine learning, dois problemas comuns que podem surgir são o overfitting e o underfitting:

O overfitting ocorre quando um modelo se ajusta excessivamente aos dados de treinamento, capturando ruídos e variações que não são representativos da realidade. Embora o modelo tenha um desempenho excelente nos dados de treinamento, sua capacidade de generalização para novos dados é comprometida. De acordo com Geron (2021), para evitar esse sobreajuste, uma excelente solução é a parada antecipada, bastando interromper o treinamento quando seu desempenho no conjunto de validação começa a cair.

Ao contrário do overfitting, o underfitting acontece quando um modelo é muito simples para capturar as tendências subjacentes nos dados. De acordo com Geron (2021), isso ocorre quando seu modelo é muito simples para o aprendizado da estrutura subjacente dos dados. Isso resulta em baixo desempenho, tanto nos dados de treinamento quanto nos dados de teste, indicando que o modelo não está aprendendo o suficiente.

saiba aplicar

O data mining e o machine learning capacitam você, futuro técnico em desenvolvimento de sistemas, a lidar com grandes volumes de dados de forma eficiente. Essas ferramentas permitem extrair insights valiosos e desenvolver soluções inteligentes que automatizam processos decisórios.

Com a compreensão dessas ferramentas, você será capaz de otimizar sistemas, personalizar experiências de usuários e aumentar a competitividade organizacional, aplicando essas técnicas em diversos contextos, como e-commerce, saúde, finanças e logística. Portanto, a compreensão e a gestão desses conceitos são fundamentais para o desenvolvimento de modelos eficazes em machine learning, garantindo que as soluções geradas sejam robustas e confiáveis.

Agora é sua vez de aplicar os conceitos aprendidos sobre data mining usando Python! Trabalharemos com um conjunto de dados e aplicaremos a técnica de agrupamento (clustering). Para iniciar essa prática, você precisará possuir acesso à internet e seguir os passos a seguir:

Abra o navegador e acesse o Google Colab (clicando aqui).
Faça login na sua conta do Google (caso já não esteja logado).
Na página inicial do Google Colab, clique em Novo Notebook.
Dê um nome para o notebook, como “Saiba Aplicar Lição 4”.

No primeiro bloco de código que aparece, você deverá escrever o seguinte código para as devidas instalações do ambiente: !pip install pandas scikit-learn matplotlib

Após digitar o código, clique no botão “play” ao lado do código para executá-lo. Agora, carregue um conjunto de dados — use um dataset simples, como o Iris (disponível on-line). Crie mais um bloco de código (clicando em + code) e, nesse segundo bloco de código, digite o código apresentado na Figura 1 e, depois, execute o bloco para visualizar os dados carregados.

Figura 1 - Conjunto de dados Iris
Fonte: o autor.

#PraCegoVer: a figura apresenta nove linhas. Na linha 1, está escrito import pandas as pd. Na linha 3, está escrito # Carregar o dataset Iris na linha 4 url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data". Na linha 5, está escrito colunas = ['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Species']. Na linha 6, está escrito iris = pd.read_csv(url, names=colunas). Na linha 8, está escrito # Exibir as primeiras linhas do dataset. Na linha 9, está escrito iris.head(). Nas linhas 2 e 7, não há conteúdo escrito.

Agora, crie mais um bloco de código e aplique a técnica K-Means para agrupar os dados, conforme a Figura 2, que aplicará o algoritmo K-Means e gerará um gráfico com os agrupamentos

Figura 2 - Técnica K-Means
Fonte: o autor.

#PraCegoVer: a figura paresenta 19 linhas. Na linha 1, está escrito from sklearn.cluster import KMeans. Na linha 2, está escrito import matplotlib.pyplot as plt. Na linha 4, está escrito # Remover a coluna 'Species' para realizar o agrupamento. Na linha 5, está escrito dados = iris.drop('Species', axis=1). Na linha 7, está escrito # Aplicar o K-Means com 3 clusters (grupos). Na linha 8, está escrito kmeans = KMeans(n_clusters=3). Na linha 9, está escrito kmeans.fit(dados). Na linha 11, está escrito # Adicionar os grupos ao dataset original. Na linha 12, está escrito iris['Cluster'] = kmeans.labels_. Na linha 14, está escrito # Visualizar os resultados. Na linha 15, está escrito plt.scatter(iris['SepalLength'], iris['SepalWidth'], c=iris['Cluster'], cmap='viridis'). Na linha 16, está escrito plt.xlabel('Sepal Length'). Na linha 17, está escrito plt.ylabel('Sepal Width'). Na linha 18, está escrito plt.title('Clusters com K-Means'). Na linha 19, está escrito plt.show(). Nas linhas 3, 6, 10 e 13, não há conteúdo escrito.

Observe os agrupamentos gerados pelo script e como os dados foram distribuídos. Por fim, relate os padrões que você encontrou: quantos clusters foram formados e o que os separa? Responda: quais benefícios você pode ver no uso dessa técnica em projetos de software?

Salve seu notebook no Google Drive e compartilhe o link com o professor e seus colegas! Essa atividade permitirá que você use uma ferramenta on-line simples e poderosa para aplicar técnicas de data mining em um ambiente realista, preparando-o para trabalhar com dados em seus próprios projetos futuros.

REFERÊNCIAS

BASSO, D. Big data. Curitiba: Contentus, 2020.

GERON, A. Mãos à Obra: aprendizado de máquina com Scikit-Learn, Keras & TensorFlow. 2. ed. Rio de Janeiro: Alta Books, 2021.

SILVA, L. Introdução à Mineração de dados: com aplicações e R. São Paulo: GEN LTC, 2016.

Page updated

Google Sites

Report abuse