Desde o surgimento dos sistemas computacionais, um dos principais objetivos das organizações tem sido o de armazenar dados.
Com o volume de dados armazenados crescendo diariamente, surgiu a seguinte questão: O que fazer com os dados armazenados? Com a finalidade de responder a esta questão, foi proposta, no final da década de 80, a Mineração de Dados, do inglês Data Mining.
O KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados) é uma tentativa de solucionar o problema causado pela sobrecarga de dados.
Ainda não é consenso a definição dos termos KDD e Data Mining. Segundo alguns autores, esses termos são considerados sinônimos.
Conhecer o tipo dos dados com o qual se irá trabalhar é fundamental para a escolha do(s) método(s) mais adequado(s) para o processamento. Em geral, antes de se aplicar os algoritmos de mineração é necessário explorar, conhecer e preparar os dados.
Limpeza dos dados
Frequentemente, os dados são encontrados com diversas inconsistências: registros incompletos, valores errados e dados inconsistentes. A etapa de limpeza dos dados visa eliminar estes problemas de modo que eles não influam no resultado dos algoritmos usados.
Integração dos dados
É comum obter-se os dados a serem minerados de diversas fontes: banco de dados, arquivos textos, planilhas, data warehouses, vídeos, imagens, entre outras. Surge então, a necessidade da integração destes dados de forma a termos um repositório único e consistente.
Transformação dos dados
Alguns algoritmos trabalham apenas com valores numéricos e outros apenas com valores categóricos. Nestes casos, é necessário transformar os valores numéricos em categóricos ou os categóricos em valores numéricos.
Não existe um critério único para transformação dos dados e diversas técnicas podem ser usadas de acordo com os objetivos pretendidos.
Algumas das técnicas empregadas nesta etapa são:
Suavização (remove valores errados dos dados)
Agrupamento (agrupa valores em faixas sumarizadas)
Generalização (converte valores muito específicos para valores mais genéricos)
Normalização (colocar as variáveis em uma mesma escala)
Criação de novos atributos (gerados a partir de outros já existentes).
Fonte: http://www.inf.ufg.br/sites/default/files/uploads/relatorios-tecnicos/RT-INF_001-09.pdf