Edição de texto
Conversão de texto
Procura e substituição de cadeias de carateres e códigos de controle inseridos em texto
tratamento massivo de texto em vários ficheiros
Interessa-nos apenas o texto simples, nada de processadores de texto, nada de imagem, nada de vídeo, apenas texto simples.
Extrair apenas o texto de ficheiros pdf para em seguida fazer uma análise de conteúdo (usando o R e o RQDA, neste caso será usada a Grounded Theory, mas isso é irrelevante para agora).
Como converter ficheiros PDF em ficheiros de texto simples?
no Linux
usando o pdftotext
input.pdf - nome do ficheiro pdf que queremos converter
output.txt - nome do ficheiro que vamos obter após a conversão
input.pdf deverá ser substituído pelo nome do ficheiro pdf que queremos converter.
pdftotext -layout input.pdf output.txt
verificar o ficheiro de saída output.txt (ou o nome que lhe tiver sidi dado),
Caso haja quebras de linha que não correspondam a parágrafos devemos eliminá-las.
Como eliminar parágrafos num ficheiro text?
usando o programa edit (gedit, kedit) no linux
Ctrl + H (Localizar e substituir)
Substituir:
\n
por
(fica em branco).
Desta forma vamos substituir todos os carateres de final de parágrafo por nada, ou seja eliminamos todos os parágrafos pelo que o texto ficará todo junto sem parágrafos.
Isto provavelmente não será muito útil pelo que vamos ter que arranjar critérios eficazes para eliminar apenas os parágrafos que não interessa.
Vamos admitir que um parágrafo só ocorre depois de um ponto final, nesse caso para eliminar todos os outros parágrafos que não deveriam existir procedemos de seguinte modo:
Eliminar todos carateres de inicio de parágrafo em que o parágrafo anterior não termine com ponto final
Sempre que aparece um ponto final seguido de um novo parágrafo (.\n) substituir por um símbolo que não exista no texto e que será mais tarde usado para recuperar os parágrafos, como por exemplo o carater §, se este não existir no texto (devemos testar antes com um pesquisa por esse carater).
substituir: .\n por: §
Se tudo funcionou bem, desapareceram todos os parágrafos que deveriam existir, só ficaram os que não queremos, pelo que resta eliminar estes.
Substituir agora o carater de novo parágrafo por uma espaço (para que as palavras não fiquem coladas)
substituir: \n por:
substituímos o código de novo parágrafo por nada, ou seja eliminamos todos os parágrafos.
Substituímos os carateres § pelo carater de novo parágrafo para recuperarmos os parágrafos corretos.
substituir: § por: \n
Nota: em princípio as linhas de título deveriam terminar em parágrafo e não deverão terminar com ponto final, teremos que resolver isto antes (podemos aplicar um raciocinio idêntico).
Como eliminar quebras de linhas que não são parágrafos num ficheiro txt?