Nuvem de Palavras

Uma nuvem de palavras serve para elencar palavras ou termos importantes relacionados a um determinado tema ou assunto.

Para o desenvolvimento desse projeto eu pensei em utilizar uma forma de automatizar a procura por termos, ao menos tornar menos maçante e mais eficiente, ainda mais pensando em usar uma larga base de dados, que não foi o caso, para isso utilizei um software voltado para programação e tratamento de dados chamado Orange Data Mining, que, além de muito útil e intuitivo, também é bem didático e é possível aprender apenas mexendo nele, sem precisar se aprofundar em documentação ou fóruns na internet.

Vou demonstrar passo a passo como fazer uma nuvem usando uma Word List, exatamente como eu fiz, se tá certo, eu duvido, mas serve como aprendizado de qualquer forma, também vou deixar o link do vídeo tutorial que olhei e me embasei para esse trabalho, veja o tutorial da IAExpert.

Como Fazer

Para instalar o Orange basta fazer o download na página oficial, com base no seu sistema operacional e depois abrir o arquivo, no caso do Windows, executar o arquivo baixado e apenas clicar em "Next" a cada fase da instalação.

Após a instalação, basta iniciar o programa, ele irá mostrar algumas opções como "Novo", "Abrir" e também links úteis como tutoriais, exemplos e a própria documentação do programa, que, em caso de tempo disponível, pode ser muito útil ler para aprender mais sobre as ferramentas que ele dispõe e como usá-las. Para iniciar um novo documento basta clicar em "New" ou fechar essa janela.

Antes de iniciar será necessário instalar um pacote para manipular texto, então, para instalar, selecione o menu "Options" -> "Add-ons..."

Na barra de pesquisa, escreva "Text" e selecione o pacote, marcando a caixinha ao lado, dependendo da versão ele pode aparecer como "Orange3-Text", é o mesmo pacote. Depois de marcar a caixa dê um Ok e o programa vai começar a baixar o pacote, após isso ele vai reiniciar.

Após reiniciar, com dois cliques na parte vazia da tela, será aberto um pequeno menu de busca, o que facilita muito o desenvolvimento, mas também há a possibilidade de usar o menu a esquerda para encontrar os módulos. Voltando ao menu, digite "word" e selecione "Word List".

Após, ele irá exibir o pequeno módulo da lista, basta clicar duas vezes nele para abrir o menu de edição dele.

Ao abrir será exibida uma lista com todas as Word Lists que já foram carregadas no programa, se for a primeira vez a lista estará vazia, para adicionar uma Word List basta clicar em "More" -> "Import Words from File", nesse caso basta selecionar a sua lista.

Uma Word List no Orange caracteriza-se por ser um arquivo .txt, ou seja um arquivo de texto comum, como aqueles criados no bloco de notas, não funcionam arquivos .pdf ou .doc, precisa ser .txt, caso queira converter um artigo em .pdf para .txt, por exemplo, pode usar um conversor online como o PDFtoText, ou para converter documentos também se pode usar o MS Office ou algum semelhante. Então, para carregar à Word List, basta selecionar o arquivo .txt que queira usar.

Feito isso a nova lista será carregada ao módulo e basta selecioná-la e então fechar a janela. A lista marcada em azul será a selecionada.

O próximo módulo a ser adicionado será o "Corpus", para isso, dê dois cliques na parte em branco da tela e pesquise pelo nome do módulo. Esse módulo irá carregar as palavras da lista.

Ao abrir as propriedades do módulo, nota-se a opção de seleção de arquivos bases, como arquivos .tab ou csv, para selecionar um arquivo .txt se faz necessário o módulo de Word List.

Para carregar a lista no Corpus, é só ligar o módulo Word List ao Corpus, note que ao redor dos módulos tem uma borda, basta clicar na borda de um deles, e, mantendo o botão esquerdo do mouse pressionado, arrastar até o outro que eles se conectarão.

Ao conectar os módulos essa janela será exibida, que apresenta duas opções, a opção "Words" seleciona todas as palavras do arquivo, enquanto que a "Select Words" apresentará apenas palavras selecionadas, para criar a nuvem, o método que será utilizado requer que o Corpus carregue todas as palavras, portanto a caixa "Words" deve estar selecionada. Para selecioná-la, basta repetir o movimento realizado para conectar os módulos, só que dessa vez conectando as caixas "Words" e "Data". Depois só confirmar.

Caso queira ver como ele divide as palavras selecionadas, adicione o módulo "Corpus Viewer", ele irá permitir ver a seleção de palavras dentro da lista.

Logo após, basta conectá-lo ao corpus.

Então será possível ver as palavras selecionadas por linha, o número de linhas...

O próximo passo é adicionar um módulo de pré-processamento para poder filtrar as palavras que irão para a nuvem.

Logo depois, ele deve ser ligado ao módulo Corpus também, já que é nele que estão agrupadas as palavras.

Então, após conectá-lo ao Corpus, abra o menu dele, ao clicar duas vezes sobre o mesmo.

Entre os filtros que podem ser aplicados, pode-se, transformar as palavras, em minúsculas por completo, remover acentos, analisar html e remover links.

Aqui as opções para tokenizar, que seriam os termos utilizados, palavras, como são definidos, se é por pontuação, sentença, espaços em branco ou tweet, do twitter mesmo. Marque a opção Regexp, e deixe no campo Pattern o seguinte: "\w+" sem as aspas, para selecionar as palavras.

Também pode-se remover palavras irrelevantes (stopwords), marcando a linguagem correta, no caso, na linguagem em que estão as palavras carregadas, também se pode carregar um arquivo .txt. com uma lista de palavras irrelevantes, no caso da imagem representado por "eliminar.txt", uma lista simples com palavras como "a, o, teriam, teríamos..." palavras que você possa considerar inútil para sua nuvem. Números e pontuações também podem ser removidos, também pode mostrar a frequência do documento, acredito que seja a frequência que uma palavra aparece, talvez.

A caixa do "Most frequent tokens" deve estar marcada e o número que estiver lá, será o número de palavras na nuvem, no caso da imagem, estariam selecionadas para a nuvem as 24 palavras que mais aparecem na lista, e que não constam na lista de palavras irrelevantes.

A última parte então é habilitar a nuvem, para isso, dois cliques e pesquisa por "Word" ou "Cloud" e seleciona a "Word Cloud", após isso basta conectar ela ao módulo de pré-processamento.

Ao abrir o módulo é possível visualizar a nuvem, assim como uma lista das palavras ranqueadas da que aparece mais, e quantas vezes ela aparece, até a que menos aparece. Logo abaixo da lista tem o número de palavras analisadas, quais são mostradas, e também o ícone de disquete, ou seja, o ícone de salvamento para salvar a imagem.

Então, através desse curto tutorial eu queria demonstrar uma das funcionalidades do Orange, e explicar como que eu fiz para chegar a nuvem apresentada no trabalho, além de mostrar como fazer, possibilitar a quem tenha interesse de tentar e aprender assim como eu.

Aqui estão os artigos que usei para a Word List da minha nuvem, assim como o arquivo da própria lista.

Google Sites

Report abuse