Неочевидные возможности ABBYY FineReader

Каждая следующая версия ABBYY FineReader становится всё более интуитивно понятной. В частности, в последние версии включена система встроенных сценариев, которые дают возможность выполнить стандартные последовательности действий за несколько щелчков мышью. Так мы стараемся облегчить работу с программой для большинства наших пользователей. И, тем не менее, FineReader обладает рядом возможностей, которые не лежат на поверхности, но могут быть полезны пользователям «продвинутым». О нескольких таких возможностях мы расскажем в этом посте.

Начнем с функции создания языков в ABBYY FineReader 10 Professional Edition. Для чего и кому это нужно? В основном, для тех, кто занимается распознаванием текста, содержащего много специфических конструкций, например, артикулов, небуквенных символов, аббревиатур или цифр. На первый взгляд кажется, что такие случаи бывают редко, но мы довольно часто сталкиваемся с подобными вопросами от наших пользователей. Например, интересный случай был описан на форуме FineReader, где пользователю нужно было распознать книгу по покеру, в которой, разумеется, встречались символы-масти. Чтобы решить проблему с корректным отображением мастей, мы посоветовали создать в программе новый язык. Эта процедура облегчает работу с подобными документами и значительно сокращает время их обработки. Сам процесс создания не займет много времени и не требует специфических знаний, здесь просто нужно быть внимательным. Чтобы вам легче было разобраться, мы покажем, как это делается.

Основной диалог, в котором настраиваются параметры нового языка, вызывается из меню Сервис ->Редактор языков нажатием кнопки Новый…. Язык создается на основе одного из существующих, поэтому перед тем как редактировать свойства нового языка, выберите тот, который будет принят за основу. Если текст, который вы будете распознавать, на русском языке, его и стоит выбрать в качестве базового. Открываем окно Свойства языка.

"Нетрудно догадаться, что начинать данный процесс придется с создания алфавита. Нажимаем кнопку редактирования и попадаем в диалог с широкими возможностями для создания собственного алфавита: здесь можно добавить любые символы из более чем шестидесяти наборов – от привычной кириллицы до специальных математических и декоративных. Находим нужные символы, добавляем их в алфавит и закрываем окно редактирования.

Кроме возможности добавления символов в алфавит, существует обратная процедура – исключение ненужных символов. Например, если вы распознаете книгу 60-70 годов выпуска, то имеет смысл убрать из языка распознавания такие символы, как & # © ® ™ @. Так мы поможем программе исключить ненужные варианты при распознавании нечётко пропечатанных букв.

После того как работа с алфавитом завершена, нужно выбрать словарь, который будет использоваться системой при распознавании и проверке, и указать дополнительные свойства (например, символы, которые могут встречаться в начале и конце слова и т.д.). Теперь FineReader готов к распознаванию вашего текста.

Когда вы создавали новый язык, наверняка заметили вторую опцию, доступную в диалоге Редактор языков – «Создать новую группу языков». Пригодится она тем, кому приходится распознавать документы, тексты которых составлены одновременно на нескольких нетрадиционных языках одновременно. Например, вам внезапно понадобилось распознать научную диссертацию, составленную на языках аймара, конго и зулу…

Сразу напомню, что в программе есть и предопределённые группы языков. Они используются для распознания документов, составленных на двух-трех распространенных языках, например, на русском и английском, или на английском, немецком и французском и т.д. Для таких документов создавать новую группу каждый раз совсем не обязательно. А если вам вдруг понадобится сочетание китайского упрощенного и простых химических формул, или английского и того, который вы ранее создали сами, то вам сюда. Смело устанавливайте флажок на опцию «Создать новую группу языков» и из предложенного списка выбирайте и добавляйте нужные вам языки. Не забудьте придумать оригинальное название для вновь созданной группы – тогда вы сможете использовать ее в следующий раз.

Следующая возможность – «Распознавание с обучением» – пригодится, когда нужно распознать текст, напечатанный декоративным шрифтом. В таких случаях составить алфавит из имеющихся символов просто физически невозможно, но зато вы сможете создать свой эталон букв, которые будут использованы в тексте, и с их помощью распознать декоративный шрифт. Еще эту возможность удобно использовать при распознавании текста с большим количеством сложных математических формул и для больших объемов текста плохого качества.

Если вы все же решились на создание эталона, отправляйтесь в меню Сервис -> Опции на вкладкуРаспознать. Здесь в группе Обучение нужно установить флажок в положение Распознать с обучениеми нажать кнопку Эталоны, которая вызывает диалог создания нового эталона. Введите название для нового эталона, закройте все открытые диалоги и начинайте процесс распознавания. Как только встретится незнакомый символ, откроется диалог Ручное обучение эталона с изображением этого символа.

В результате распознавания вы получите именно те значения незнакомых символов, которым научили FineReader сами. Вот таким нехитрым способом происходит обучение FineReader. Кстати, созданные эталоны можно сохранять – тогда вы сможете их использовать их несколько раз, а также редактировать при необходимости.

Сегодня мы рассказали вам о двух возможностях FineReader, о которых вы, возможно, еще не знали и которые, быть может, окажутся вам полезными. Эти и другие интересные функции FineReader описаны в справке, поэтому рекомендуем вам иногда туда заглядывать.

Алиса Рахманова,

Департамент продуктов для распознавания текстов

комментарии (22)

  • 31 марта 2011, 13:26

    • +4

Для USdownloader помню пригождался неоценимо.

Давно правда это было, лет 6 назад, как там программа сейчас интересно.

  • 31 марта 2011, 22:10

    • +1

Пару лет как не развивается. Есть альтернатива в лице JDownloader.

  • 2 апреля 2011, 23:35

    • 0

  • 2 апреля 2011, 23:35

    • 0

  • 31 марта 2011, 15:01

    • 0

Если ли цифры, доказывающие существенное преимущество распознавания с обучением, основанные на большой статистике?

  • 31 марта 2011, 15:13

    • +2

Простите, преимущество перед чем?

Распознавание с обучением может пригодиться в тех случаях, когда основное распознавание сработало ой-ой-ой как плохо. А мы стремимся к тому, чтобы таких случаев становилось как можно меньше. То есть, чтобы распознавание с обучением стало бы совсем не нужным.

И, кстати, кое-каких успехов в этом достигли. Угадайте, почему из четырёх скриншотов, выбранных авторами статьи, два одинаковых а ещё на одном — соседнее слово из той же строчки :)

  • 31 марта 2011, 15:10

    • +1

Скоро FR будет распознавать captcha

  • 31 марта 2011, 15:15

    • +1

Увы, мы от этого ещё очень далеки. Или не увы?..

  • 31 марта 2011, 16:50

    • 0

<irony>Зря чтоль их тут недавно проспонсировали? )</irony>

  • 31 марта 2011, 23:18

    • +1

Проспонсировали другой проект. Вы хотели поймать нас на нецелевом использовании средств? )

  • 31 марта 2011, 23:30

    • 0

Да ладно, это же ирония была )

  • 31 марта 2011, 23:32

    • 0

Взаимно :)

  • 31 марта 2011, 15:32

    • +10

Научите лучше его без всякий обучений нормально распознавать формулы из учебников.

Обычно это цифры и буквы в курсиве (иногда ещё всякие альфа, бета, омега итд) и очень часто встречается дробная черта. Вообщем распознавать ФайнРидер их наотрез отказывается, выдаёт непостижимые уму кракозябры.

  • 2 апреля 2011, 23:37

    • 0

альфа, бета, омега ведь не относятся к дефолтному англо-русскому языку распознавания ;)

  • 2 апреля 2011, 23:55

    • 0

Извините, проверить не могу, но вроде язык сам определяется. Если не так, то весьма глупо было не включить подобные символы в умолчание.

  • 1 апреля 2011, 20:25

    • +1

Помню лет 10 назад, когда приходилось изредка набирать вручную написанный текст, мечтал о автоматическом распознавании рукописного текста… жаль, что сейчас технологии настолько же далеки от этого, как и 10 лет назад… скорее всего это просто мало кому нужно…

  • 3 апреля 2011, 00:08

    • 0

откроется диалог Ручное обучение эталона с изображением этого символа

почему-то у автора статьи диалоги открылись на английском. неочевидно. ^)

  • 3 апреля 2011, 00:41

    • +2

отправляйтесь в меню Сервис -> Опции на вкладку Распознать. Здесь в группе Обучение нужно установить флажок в положение Распознать с обучением и нажать кнопку Эталоны, которая вызывает диалог создания нового эталона…

Эти и другие интересные функции FineReader описаны в справке, поэтому рекомендуем вам иногда туда заглядывать.

любопытно, чем руководствовались проектировщики интерфейса, делая доступ к функциональности аж в 6 хопов?

наличие неочевидных возможностей это не плюс продукту, а минус его интерфейсу. в 10-ке он получился ещё более запутанным, по сравнению с 9-й версией. хотя, справка в FR чудесна: напоминает солюшен к компьютерной игре — для тех кто ниасилил разобраться в диалогах, или же застрял где-то на половине квеста. =)

  • 4 апреля 2011, 15:44

    • 0

Хм… Мне казалось, эта статья как раз дала очень чёткий ответ на Ваш первый вопрос. Ответ этот — потому что для работы эта хрень ну вот нафиг не нужна. Только поманьячиться и поиграться с эталонами.

А вот реально нужный, хоть и достаточно редко, сервис, улучшающий распознавание в трудных случаях (скажем, как обсуждавшиеся выше греческие буковки в тексте) — использование пользовательского языка распознавания — доступно в три клика.

Тут уж как сказать… Вобщем, не обижайтесь, тут либо Вы статью не прочитали, либо на самом деле нашли, чему у наших интерфейс-дизайнеров можете поучиться.

  • 4 апреля 2011, 19:35

    • 0

на счет обучения вы отлично придумали! жду статьи от ваших интерфейс-дизайнеров про то, какие методы проектирования они используют, и как было принято самое удачное, на их взгляд, интерфейсное решение в 10-ке. хочется увидеть характеристики перснон, для которых они дизайнят (надеюсь, что это не геймеры-маньяки?), гипотезы из которых они исходили, пользовательские сценарии.

и, plss… выкиньте из продукта, всю хрень, которая вот нафиг не нужна для работы (почему я вынужден платить за неё? — я не маньяк и не геймер).

  • 4 апреля 2011, 21:05

    • 0

Комментарий не туда нписался, сорри.

  • 4 апреля 2011, 21:04

    • 0

Вы уж определитесь что ли… То ли эта штуковина Вам мешает аж жуть, то ли Вы до неё не в силах в меню докопаться. А то как в том анекдоте про женскую баню.