УРОК 14.
ТЕМА: "ОСR -ТЕХНОЛОГІЇ ДЛЯ РОЗПІЗНАВАННЯ ПАПЕРОВИХ ДОКУМЕНТІВ"
ТЕМА: "ОСR -ТЕХНОЛОГІЇ ДЛЯ РОЗПІЗНАВАННЯ ПАПЕРОВИХ ДОКУМЕНТІВ"
Документообіг Урок 14.pptx .pptx
ПЛАН ОПРАЦЮВАННЯ ТЕМИ УРОКУ
ПЛАН ОПРАЦЮВАННЯ ТЕМИ УРОКУ
- Переглянути навчальну презентацію до уроку.
2. Опрацювати опорний конспект з теми на даній сторінці.
2. Опрацювати опорний конспект з теми на даній сторінці.
3. Практичне завдання.
3. Практичне завдання.
ОПОРНИЙ КОНСПЕКТ
ОПОРНИЙ КОНСПЕКТ
Для розпізнавання текстів, тобто перекладу з графічного зображення в текстовий формат, служать програми оптичного розпізнавання текстів (OCR). Оптичне розпізнавання тексту (англ. optical character recognition, OCR) – це механічне або електронне переведення збереженого рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі. Оптичне розпізнавання тексту дозволяє:
Для розпізнавання текстів, тобто перекладу з графічного зображення в текстовий формат, служать програми оптичного розпізнавання текстів (OCR). Оптичне розпізнавання тексту (англ. optical character recognition, OCR) – це механічне або електронне переведення збереженого рукописного, машинописного або друкованого тексту в послідовність кодів, що використовують для представлення в текстовому редакторі. Оптичне розпізнавання тексту дозволяє:
- редагувати текст;
- здійснювати пошук по словах або фразах;
- зберігати його в компактнішій формі;
- демонструвати або роздруковувати матеріал, не втрачаючи якості;
- аналізувати інформацію;
- застосовувати до тексту електронний переклад, форматування або перетворення в мовлення.
FineReader — система оптичного розпізнавання символів, розроблена російською компанією ABBYY. Програма для розпізнавання тексту дозволяє швидко і точно переводити зображення документів і PDF-файли в електронні формати, придатні для редагування(Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV і текстові (plain text) файли). Інтуїтивно-зрозумілий інтерфейс програми дозволяє одним натисканням мишки розпізнати документи 189 мовами.
FineReader — система оптичного розпізнавання символів, розроблена російською компанією ABBYY. Програма для розпізнавання тексту дозволяє швидко і точно переводити зображення документів і PDF-файли в електронні формати, придатні для редагування(Microsoft Word, Microsoft Excel, Microsoft Powerpoint, Rich Text Format, HTML, PDF/A, searchable PDF, CSV і текстові (plain text) файли). Інтуїтивно-зрозумілий інтерфейс програми дозволяє одним натисканням мишки розпізнати документи 189 мовами.
FineReader – єдина в світі OCR-система, яка діє відповідно до принципів функціонування нашої зорової системи на всіх етапах обробки документа.
FineReader – єдина в світі OCR-система, яка діє відповідно до принципів функціонування нашої зорової системи на всіх етапах обробки документа.
Цілісність (integrity) – об’єкт розглядається як сукупність своїх частин і просторових відносин між ними. Цілеспрямованість (purposefulness) – оскільки будь-яка інтерпретація даних переслідує певну мету, то і розпізнавання являє собою процес висунення гіпотез про об’єкт і цілеспрямованої їх перевірки. Адаптивність(adaptability) – система зберігає накопичену в процесі роботи інформацію і використовує її повторно, тобто відбувається самонавчання. Відповідна технологія носить назву IPA – за першими літерами англійських термінів.
Цілісність (integrity) – об’єкт розглядається як сукупність своїх частин і просторових відносин між ними. Цілеспрямованість (purposefulness) – оскільки будь-яка інтерпретація даних переслідує певну мету, то і розпізнавання являє собою процес висунення гіпотез про об’єкт і цілеспрямованої їх перевірки. Адаптивність(adaptability) – система зберігає накопичену в процесі роботи інформацію і використовує її повторно, тобто відбувається самонавчання. Відповідна технологія носить назву IPA – за першими літерами англійських термінів.
ABBYY розробили спеціальний алгоритм MDA (multilevel document analysis, багаторівневий аналіз документа). Структура сторінки аналізується методом зверху-донизу (від складових елементів до окремих символів), а відтворення електронного документа після закінчення розпізнавання відбувається знизу-догори, проте на всіх рівнях додатково діє механізм зворотнього зв’язку.
ABBYY розробили спеціальний алгоритм MDA (multilevel document analysis, багаторівневий аналіз документа). Структура сторінки аналізується методом зверху-донизу (від складових елементів до окремих символів), а відтворення електронного документа після закінчення розпізнавання відбувається знизу-догори, проте на всіх рівнях додатково діє механізм зворотнього зв’язку.
Більшість сучасних OCR діють на трьох рівнях: символів, слів, сторінок. Однак ABBYY, відповідно до принципів IPA, ввела в FineReader ще один рівень – всього багатосторінкового документа. Перш за все це знадобилося для коректного відтворення логічної структури, яка в сучасних документах стає все складніше.
Більшість сучасних OCR діють на трьох рівнях: символів, слів, сторінок. Однак ABBYY, відповідно до принципів IPA, ввела в FineReader ще один рівень – всього багатосторінкового документа. Перш за все це знадобилося для коректного відтворення логічної структури, яка в сучасних документах стає все складніше.
Саме для цього і була розроблена ADRT (Adaptive Document Recognition Technology) – технологія аналізу і синтезу документа на логічному рівні. В кінцевому підсумку вона допомагає зробити результат роботи FineReader максимально схожим на оригінал.
Саме для цього і була розроблена ADRT (Adaptive Document Recognition Technology) – технологія аналізу і синтезу документа на логічному рівні. В кінцевому підсумку вона допомагає зробити результат роботи FineReader максимально схожим на оригінал.
Серед подібних до Abby FineReader систем можна назвати:
Серед подібних до Abby FineReader систем можна назвати:
- SimpleOCR;
- OmniPage;
- Readiris;
Окремо слід виділити Tesseract – це система розпізнавання текстів, що у 1985-1994 рр. розроблялася Hewlett-Packard, а з 2006 є вільною і поширюється компанією Google та дуже стрімко розвивається у останні роки.
Окремо слід виділити Tesseract – це система розпізнавання текстів, що у 1985-1994 рр. розроблялася Hewlett-Packard, а з 2006 є вільною і поширюється компанією Google та дуже стрімко розвивається у останні роки.
Отже, оптичне розпізнавання текстів є зручним інструментом для створення цифрових документів з паперових оригіналів. Текстове подання дозволяє здійснювати подальшу обробку інформації, отриману шляхом сканування або фотографування. Актуальність розпізнавання текстів зросла з набуттям поширення пристроїв для читання електронних книг, що дозволяє створити більш комфортні умови читання. Завдяки оптичному розпізнаванню, значно спростилося завдання пошуку інформації у електронних бібліотеках (можна знайти не лише том або розділ книги, а навіть конкретні речення або слова)
Отже, оптичне розпізнавання текстів є зручним інструментом для створення цифрових документів з паперових оригіналів. Текстове подання дозволяє здійснювати подальшу обробку інформації, отриману шляхом сканування або фотографування. Актуальність розпізнавання текстів зросла з набуттям поширення пристроїв для читання електронних книг, що дозволяє створити більш комфортні умови читання. Завдяки оптичному розпізнаванню, значно спростилося завдання пошуку інформації у електронних бібліотеках (можна знайти не лише том або розділ книги, а навіть конкретні речення або слова)
ПРАКТИЧНЕ ЗАВДАННЯ
ПРАКТИЧНЕ ЗАВДАННЯ
1. Завантажте на свій мобільний пристрій додаток Adobe Scan через Play Меркет або AppStore.
1. Завантажте на свій мобільний пристрій додаток Adobe Scan через Play Меркет або AppStore.
2. Увійдіть у систему під обліковим записом Google.
2. Увійдіть у систему під обліковим записом Google.
3. Ознайомтесь із інтерфейсом, запишіть у звіт наявні опції сканування.
3. Ознайомтесь із інтерфейсом, запишіть у звіт наявні опції сканування.
4. Закрийте режим сканування, зайдіть до меню.
4. Закрийте режим сканування, зайдіть до меню.
5. Перейдіть у меню «Установки» та прокоментуйте у звіті наявні налаштування.
5. Перейдіть у меню «Установки» та прокоментуйте у звіті наявні налаштування.
6. Ознайомтесь із вкладинкою «Все сканы», налаштуйте вигляд сортування документів через меню сторінки (…).
6. Ознайомтесь із вкладинкою «Все сканы», налаштуйте вигляд сортування документів через меню сторінки (…).
7. Натисніть «+» та виберіть «Скан с помощью камеры», відскануйте будь який документ.
7. Натисніть «+» та виберіть «Скан с помощью камеры», відскануйте будь який документ.
8. У правій нижній частині екрана виберіть зроблене фото документа.
8. У правій нижній частині екрана виберіть зроблене фото документа.
9. Дочекайтеся розпізнавання. Прокоментуйте інструменти, призначені для редагування отриманого результату.
9. Дочекайтеся розпізнавання. Прокоментуйте інструменти, призначені для редагування отриманого результату.
10. Збережіть на пристрої створений документ.
10. Збережіть на пристрої створений документ.
11. Виконайте пункти 7-10, тільки для розпізнавання виберіть будь-яке зображення із пристрою.
11. Виконайте пункти 7-10, тільки для розпізнавання виберіть будь-яке зображення із пристрою.
12. На ПК ознайомтеся з одним із онлайн-OCR, опишіть процедуру розпізнавання тексту через Інтернет.
12. На ПК ознайомтеся з одним із онлайн-OCR, опишіть процедуру розпізнавання тексту через Інтернет.
Оформити звіт у гугл-документі. Надіслати в Гугл-Клас.
Оформити звіт у гугл-документі. Надіслати в Гугл-Клас.
УСПІХІВ!
УСПІХІВ!