KDD

Knowledge Discovery in Database - kdd.


O termo KDD foi formalizado em 1989 para atender os processos referentes à busca de conhecimento a partir de bases de dados. Uma das definições mais populares foi proposta em 1996 por um grupo de pesquisadores (FAYYAD; PIATESTKY; SMYTH, 1996b, p. 30):

“KDD é um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados.”

O termo Interativo indica a atuação do Homem para a realização dos processos, sendo ele o responsável por utilizar as ferramentas computacionais para análise e interpretação dos dados. Para obter um resultado satisfatório, é necessário muitas vezes repetir o processo de forma integral ou parcial, ou seja, o processo é iterativo.

A descoberta de conhecimento em base de dados é o processo de extração de conhecimento através de manipulação de dados. Feldens (1998 apud DIAS, 2001) define as seguintes etapas para KDD:

• Pré-processamento: Atividades que visam gerar uma representação conveniente para os algoritmos de mineração, a partir da base de dados. Inclui a seleção (automática e/ou manual de atributos relevantes), amostragem, transformações de representação, etc. Goldschmidt e Passos (2005) afirmam que esta etapa possui fundamental relevância no processo KKD, e apresenta as seguintes funcionalidades para esta etapa: seleção de dados, limpeza dos dados, codificação dos dados, normalização dos dados, construção de novos atributos e correção de prevalência.

• Mineração de dados: Aplicação de algoritmos de mineração aos dados pré-processados, ou seja, busca efetiva por conhecimentos úteis a partir dos dados. Esta etapa é detalhada na próxima seção.

•Pós-processamento: Seleção e ordenação das descobertas interessantes, mapeamentos de representação de conhecimento e geração de relatórios. É nesta etapa que o especialista em KDD e o especialista no domínio de aplicação avaliam os resultados obtidos e criam novas alternativas para novas investigações de dados. Goldschmidt e Passos (2005) apresentam algumas operações para a realização desta etapa, tais como: simplificação do modelo de conhecimento, transformação do modelo de conhecimento e organização e apresentação dos resultados.

FAYYAD, U. M.; PIATESTKY SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery: an overview. In: FAYYAD, U. M. et al. (Ed.). Advances knowledge discovery and data mining. Menlo Park: AAAI, 1996a. p. 1-36.
DIAS, M. M. Parâmetros na escolha de técnicas e ferramentas de mineração de dados. Acta Scientiarum, Maringá, v. 24, n. 6, p. 1715-1725, 2002.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining um guia pratico. 1. ed. Rio de Janeiro: Campus, 2005.