OCR: O que quer dizer e como se usa a partir do Google Documentos?

Data de publicação: Mar 15, 2018 10:35:54 PM

Converter ficheiros PDF e imagens JPG para texto editável

OCR quer dizer "Optical Character Recognition"

Transcrever é copiar texto a partir de uma folha de papel para um formato electrónico editável a partir de um qualquer processador de texto.

Os programas informáticos que "lêem" folhas de papel com texto e as convertem em texto editável, utilizam uma tecnologia que se chama de OCR (Optical Character Recognition).

O Google Documentos tem incorporada esta tecnologia de OCR.

Procedimento prático

O Google Documentos tem incorporada esta tecnologia de OCR, pronta a ser utilizada de uma forma gratuita.

Para tirarmos partido do OCR disponível no Google Documentos devemos efetuar os seguintes passos:

A partir de um telemóvel ANDROID ou iPhone:

1. Instalar no telemóvel a app DRIVE.

2. Abrir a app e escolher a opção + > Digitalizar

3. Fotografar a folha A4 pretendida

4. Ajustar a área e o modo (cor é melhor) e Guardar. O ficheiro é instantaneamente armazenado no DRIVE em formato PDF (deve ter menos de 2 MB. Verifique). No iPhone o formato armazenado é JPG.

5. Aceder ao DRIVE e abrir o PDF utilizando o Google Documentos. No computador, clique com o botão direito do rato e escolha Google Documentos. É agora que o OCR entra em funcionamento!

6. Toda a imagem da folha A4 vai ser convertida em texto editável. Verifique!

Nota interessante

Também é possível fazer o OCR a partir uma imagem JPG ou PNG que contenha texto.

Para isso, basta carregar a imagem para o DRIVE e depois deve clicar na imagem com o botão direito do rato e escolher Abrir com "Google Documentos".

Mais informação

Exercício prático

Imagine a seguinte situação:

Vou precisar de utilizar um excerto de três páginas deste livro "Disse-me um adivinho" de Tiziano Terzani (1995), que por sinal é um dos meus livros preferidos. Como fazer, rápido e bem?

Utilizei a App Google DRIVE a partir do meu telemóvel para digitalizar (fotografar) as referidas três páginas do livro. O resultado encontra-se no ficheiro PDF em anexo.

Preciso agora de converter este PDF em texto editável. Como fazer?

Procedimento para converter imagens de texto em texto editável:

1. Descarregue o PDF para o seu computador. O ficheiro encontra-se mais abaixo na área de anexos com o nome "Digitalizado_20180412-2008 - Disse-me um Adivinho de Tiziano Terzani.pdf"

2. Carregue-o agora para o seu Google DRIVE

3. No Google DRIVE, clique com o botão direto do rato sobre ele e escolha Abrir com > Documentos do Google

4. O OCR vai entrar em funcionamento e é automáticamente criado um novo Documento com o texto editável.

5. Abra agora o novo documento e comprove a qualidade do texto editável!