УРОК 14.

ТЕМА: "ОСR -ТЕХНОЛОГІЇ ДЛЯ РОЗПІЗНАВАННЯ ПАПЕРОВИХ ДОКУМЕНТІВ"

Документообіг Урок 14.pptx .pptx

ПЛАН ОПРАЦЮВАННЯ ТЕМИ УРОКУ

  1. Переглянути навчальну презентацію до уроку.

2. Опрацювати опорний конспект з теми на даній сторінці.

3. Практичне завдання.

ОПОРНИЙ КОНСПЕКТ

Для розпізнавання текстів, тобто перекладу з графічного зображення в текстовий формат, служать програми оптичного розпізнавання текстів (OCR). Оптичне розпізнавання тексту (англ. optical character recognition, OCR) – це механічне або електронне переведення збереженого рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі. Оптичне розпізнавання тексту дозволяє:

  • редагувати текст;

  • здійснювати пошук по словах або фразах;

  • зберігати його в компактнішій формі;

  • демонструвати або роздруковувати матеріал, не втрачаючи якості;

  • аналізувати інформацію;

  • застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.

FineReader — система оптичного розпізнавання символів, розроблена російською компанією ABBYY. Програма для розпізнавання тексту дозволяє швидко і точно переводити зображення документів і PDF-файли в електронні формати, придатні для редагування(Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV і текстові (plain text) файли). Інтуїтивно-зрозумілий інтерфейс програми дозволяє одним натисканням мишки розпізнати документи 189 мовами.

FineReader – єдина в світі OCR-система, яка діє відповідно до принципів функціонування нашої зорової системи на всіх етапах обробки документа.

Цілісність (integrity) – об’єкт розглядається як сукупність своїх частин і просторових відносин між ними. Цілеспрямованість (purposefulness) – оскільки будь-яка інтерпретація даних переслідує певну мету, то і розпізнавання являє собою процес висунення гіпотез про об’єкт і цілеспрямованої їх перевірки. Адаптивність(adaptability) – система зберігає накопичену в процесі роботи інформацію і використовує її повторно, тобто відбувається самонавчання. Відповідна технологія носить назву IPA – за першими літерами англійських термінів.

ABBYY розробили спеціальний алгоритм MDA (multilevel document analysis, багаторівневий аналіз документа). Структура сторінки аналізується методом зверху-донизу (від складових елементів до окремих символів), а відтворення електронного документа після закінчення розпізнавання відбувається знизу-догори, проте на всіх рівнях додатково діє механізм зворотнього зв’язку.

Більшість сучасних OCR діють на трьох рівнях: символів, слів, сторінок. Однак ABBYY, відповідно до принципів IPA, ввела в FineReader ще один рівень – всього багатосторінкового документа. Перш за все це знадобилося для коректного відтворення логічної структури, яка в сучасних документах стає все складніше.

Саме для цього і була розроблена ADRT (Adaptive Document Recognition Technology) – технологія аналізу і синтезу документа на логічному рівні. В кінцевому підсумку вона допомагає зробити результат роботи FineReader максимально схожим на оригінал.

Серед подібних до Abby FineReader систем можна назвати:

  • SimpleOCR;

  • OmniPage;

  • Readiris;

Окремо слід виділити Tesseract – це система розпізнавання текстів, що у 1985-1994 рр. розроблялася Hewlett-Packard, а з 2006 є вільною і поширюється компанією Google та дуже стрімко розвивається у останні роки.

Отже, оптичне розпізнавання текстів є зручним інструментом для створення цифрових документів з паперових оригіналів. Текстове подання дозволяє здійснювати подальшу обробку інформації, отриману шляхом сканування або фотографування. Актуальність розпізнавання текстів зросла з набуттям поширення пристроїв для читання електронних книг, що дозволяє створити більш комфортні умови читання. Завдяки оптичному розпізнаванню, значно спростилося завдання пошуку інформації у електронних бібліотеках (можна знайти не лише том або розділ книги, а навіть конкретні речення або слова)

ПРАКТИЧНЕ ЗАВДАННЯ

1. Завантажте на свій мобільний пристрій додаток Adobe Scan через Play Меркет або AppStore.

2. Увійдіть у систему під обліковим записом Google.

3. Ознайомтесь із інтерфейсом, запишіть у звіт наявні опції сканування.

4. Закрийте режим сканування, зайдіть до меню.

5. Перейдіть у меню «Установки» та прокоментуйте у звіті наявні налаштування.

6. Ознайомтесь із вкладинкою «Все сканы», налаштуйте вигляд сортування документів через меню сторінки (…).

7. Натисніть «+» та виберіть «Скан с помощью камеры», відскануйте будь який документ.

8. У правій нижній частині екрана виберіть зроблене фото документа.

9. Дочекайтеся розпізнавання. Прокоментуйте інструменти, призначені для редагування отриманого результату.

10. Збережіть на пристрої створений документ.

11. Виконайте пункти 7-10, тільки для розпізнавання виберіть будь-яке зображення із пристрою.

12. На ПК ознайомтеся з одним із онлайн-OCR, опишіть процедуру розпізнавання тексту через Інтернет.

Оформити звіт у гугл-документі. Надіслати в Гугл-Клас.

УСПІХІВ!