Mineração de Texto

Um tema que tenho interesse em pesquisar é a mineração de texto, ou descoberta de conhecimento em textos.

Nesta página apresento informações e recursos relacionados ao tema Mineração de Texto, mais especificamente à tarefa de categorização de texto.

Uma apresentação de lista de recursos mais abrangente para as tarefas de mineração de texto pode ser encontrada na página sobre mineração de texto no blog dos últimos projetos de pesquisa que coordenei.

Categorização de Texto

Seguem links para download de bases de dados benchmark de categorização de texto.

Categorização simples

20 Newsgroups : The 20 Newsgroups data set é uma coleção de aproximadamente vinte mil documentos extraídos de newsgroups. O UCI KDD archive também mantém esta coleção.

Você pode fazer download de uma versão pré-processada para MATLAB que usei em meus trabalhos: training set; test set.

Categorização múltipla

Reuters-21578 : Um corpus de notícias disponibilizadas pela Reuters, Ltd. Atualmente é a coleção mais utilizada em pesquisas de categorização de texto. O UCI KDD archive também mantém esta coleção. Veja neste link ferramentas úteis para preprocessar esta coleção: usefull tools for Reuters-21578. Você pode fazer download de uma versão pré-processada para MATLAB que utilizei em meus trabalhos: tranining set; test set.

RCV1 ( Reuters Corpus Volume 1 ) : Um corpus de notícias disponibilizadas pela Reuters, Ltd. A coleção pré-processada pode ser obtida em RCV1-v2.

Ohsumed : Esta coleção contém 348.566 referências extraídas da MEDLINE (the on-line medical information database).