ТЕМА: "ОСR -ТЕХНОЛОГІЇ ДЛЯ РОЗПІЗНАВАННЯ ПАПЕРОВИХ ДОКУМЕНТІВ"
Документообіг Урок 14.pptx .pptx
ПЛАН ОПРАЦЮВАННЯ ТЕМИ УРОКУ
Переглянути навчальну презентацію до уроку.
2. Опрацювати опорний конспект з теми на даній сторінці.
3. Практичне завдання.
ОПОРНИЙ КОНСПЕКТ
Для розпізнавання текстів, тобто перекладу з графічного зображення в текстовий формат, служать програми оптичного розпізнавання текстів (OCR). Оптичне розпізнавання тексту (англ. optical character recognition, OCR) – це механічне або електронне переведення збереженого рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі. Оптичне розпізнавання тексту дозволяє:
редагувати текст;
здійснювати пошук по словах або фразах;
зберігати його в компактнішій формі;
демонструвати або роздруковувати матеріал, не втрачаючи якості;
аналізувати інформацію;
застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.
FineReader — система оптичного розпізнавання символів, розроблена російською компанією ABBYY. Програма для розпізнавання тексту дозволяє швидко і точно переводити зображення документів і PDF-файли в електронні формати, придатні для редагування(Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV і текстові (plain text) файли). Інтуїтивно-зрозумілий інтерфейс програми дозволяє одним натисканням мишки розпізнати документи 189 мовами.
FineReader – єдина в світі OCR-система, яка діє відповідно до принципів функціонування нашої зорової системи на всіх етапах обробки документа.
Цілісність (integrity) – об’єкт розглядається як сукупність своїх частин і просторових відносин між ними. Цілеспрямованість (purposefulness) – оскільки будь-яка інтерпретація даних переслідує певну мету, то і розпізнавання являє собою процес висунення гіпотез про об’єкт і цілеспрямованої їх перевірки. Адаптивність(adaptability) – система зберігає накопичену в процесі роботи інформацію і використовує її повторно, тобто відбувається самонавчання. Відповідна технологія носить назву IPA – за першими літерами англійських термінів.
ABBYY розробили спеціальний алгоритм MDA (multilevel document analysis, багаторівневий аналіз документа). Структура сторінки аналізується методом зверху-донизу (від складових елементів до окремих символів), а відтворення електронного документа після закінчення розпізнавання відбувається знизу-догори, проте на всіх рівнях додатково діє механізм зворотнього зв’язку.
Більшість сучасних OCR діють на трьох рівнях: символів, слів, сторінок. Однак ABBYY, відповідно до принципів IPA, ввела в FineReader ще один рівень – всього багатосторінкового документа. Перш за все це знадобилося для коректного відтворення логічної структури, яка в сучасних документах стає все складніше.
Саме для цього і була розроблена ADRT (Adaptive Document Recognition Technology) – технологія аналізу і синтезу документа на логічному рівні. В кінцевому підсумку вона допомагає зробити результат роботи FineReader максимально схожим на оригінал.
Серед подібних до Abby FineReader систем можна назвати:
SimpleOCR;
OmniPage;
Readiris;
Окремо слід виділити Tesseract – це система розпізнавання текстів, що у 1985-1994 рр. розроблялася Hewlett-Packard, а з 2006 є вільною і поширюється компанією Google та дуже стрімко розвивається у останні роки.
Отже, оптичне розпізнавання текстів є зручним інструментом для створення цифрових документів з паперових оригіналів. Текстове подання дозволяє здійснювати подальшу обробку інформації, отриману шляхом сканування або фотографування. Актуальність розпізнавання текстів зросла з набуттям поширення пристроїв для читання електронних книг, що дозволяє створити більш комфортні умови читання. Завдяки оптичному розпізнаванню, значно спростилося завдання пошуку інформації у електронних бібліотеках (можна знайти не лише том або розділ книги, а навіть конкретні речення або слова)
ПРАКТИЧНЕ ЗАВДАННЯ
1. Завантажте на свій мобільний пристрій додаток Adobe Scan через Play Меркет або AppStore.
2. Увійдіть у систему під обліковим записом Google.
3. Ознайомтесь із інтерфейсом, запишіть у звіт наявні опції сканування.
4. Закрийте режим сканування, зайдіть до меню.
5. Перейдіть у меню «Установки» та прокоментуйте у звіті наявні налаштування.
6. Ознайомтесь із вкладинкою «Все сканы», налаштуйте вигляд сортування документів через меню сторінки (…).
7. Натисніть «+» та виберіть «Скан с помощью камеры», відскануйте будь який документ.
8. У правій нижній частині екрана виберіть зроблене фото документа.
9. Дочекайтеся розпізнавання. Прокоментуйте інструменти, призначені для редагування отриманого результату.
10. Збережіть на пристрої створений документ.
11. Виконайте пункти 7-10, тільки для розпізнавання виберіть будь-яке зображення із пристрою.
12. На ПК ознайомтеся з одним із онлайн-OCR, опишіть процедуру розпізнавання тексту через Інтернет.
Оформити звіт у гугл-документі. Надіслати в Гугл-Клас.