Classificação de tweets MasterchefBR

Recursos

Para o presente trabalho foi construída uma base de dados com 450 tweets capturados no dia 02 de maio de 2017, durante a exibição do programa. Os textos foram rotulados manualmente por dois anotadores, com experiência em redes sociais e que acompanham o reality de culinária MasterChef Brasil.

Para a captura das mensagens foi utilizada a ferramenta TAGS, modelo de planilha do Google que permite executar uma coleta automatizada de resultados de pesquisa do Twitter.

Suíte de mineração de dados, desenvolvido utilizando a linguagem Java. Criada pela Universidade de Waikato, Nova Zelândia.

SCRIPT EM PYTHON PARA PRÉ-PROCESSAMENTO DO CORPUS

Com o objetivo de pré-processar o corpus, eliminando acentos e caracteres especiais, links para outros sites e remoção de stop-words, foi desenvolvido um script em linguagem Python para a normalização do texto das mensagens. Clique aqui para abrir o repositório github com o script e corpus pré-processado.

Google Sites

Report abuse