Компьютерные словари и системы машинного перевода текстов

На сегодняшний день разработано большое количество программ, помогающих автоматизировать перевод текста. Их можно разделить на две большие группы — компьютерные словари и системы компьютерного перевода текста.

У компьютерных словарей можно выделить такие свойства, как:

— Многоязычность, т. е. выбор языков и направления перевода.

— Специализация, когда в дополнение к основному словарю могут содержать словари по областям знаний (биоинформатика, география и т. д.).

— «Быстрый набор», когда в процессе набора слова возникает список похожих слов, возможность работы с словосочетаниями.

— Мультимедийность, например, прослушивание слов в исполнении диктора.

— Онлайн доступ, компьютерные словари с онлайн доступом позволяют выбрать тематический словарь и направление перевода.

Среди современных подходов к реализации алгоритмов машинного перевода (МП) выделяют два основных типа:

  1. Классический (rule-based machine translation — RBMT), который основан на лингвистической информации об исходном и переводном языках. Состоит из двуязычных словарей и грамматик, охватывающих основные закономерности каждого языка.

  2. Статистический (Statistical machine translation — SMT), который основан на анализе массивов текстов, представленных одновременно на языке оригинала и языке перевода.

Производители систем МП разрабатывают и применяют гибридные системы, использующие преимущества указанных типов МП.

Сегодня существует достаточно много компаний, разрабатывающих программы машинного перевода, но на мировом рынке лидируют продукты двух организаций — зарубежная компания Systran и российская компания ПРОМТ. К другим крупным производителям относятся Linguatec и Langenscheidt (Германия), Transparent Language, Babylon, Translation Experts, японо-тайская компания Asia Online и др.

Многие производители систем машинного перевода в качестве рекламы предлагают онлайн версии своих продуктов. Перечислим лишь некоторые системы онлайн перевода текста с производителями:

  1. Translate.ru (онлайн-переводчик компании ПРОМТ)

  2. SYSTRANet (Systran)

  3. Google Translate (Google)

  4. Free Translation (SDL)

  5. Babel Fish (Systran)

  6. Worldlingo (Systran)

  7. InterTran (Translation Experts Limited)

  8. ImTranslator (Smartlink Corp)

  9. Windows Life Translator (Microsoft)

  10. Яндекс Переводчик (Яндекс)

  11. ABBYY Lingvo для Windows 8 Touch (ABBYY)

Глобализация современного общества приводит к тому, что люди из разных стран обмениваются документами на разных языках. Перевод вручную требует достаточного количества времени. Для ускорения процесса используются системы компьютерного перевода текста. К преимуществам систем машинного перевода можно отнести следующие:

  1. Высокая скорость перевода, в связи с значительным сокращением времени, требуемого для перевода текстов.

  2. Низкая стоимость перевода. Часто при переводе нужно уловить только смысл письма или страницы в Интернете, а профессиональные переводчики требуют оплаты всех страниц текста.

  3. Конфиденциальность. Перевод личных писем, финансовых документов и др. не всегда можно доверить постороннему лицу.

  4. Универсальность. При правильных настройках программа-переводчик справится с переводом текстов из самых разных областей, а у профессионального переводчика всегда есть своя специализация.

  5. Перевод в режиме онлайн и перевод содержания Интернет-страниц. Сервисы онлайн-перевода всегда под рукой и помогут в нужный момент быстро перевести информацию, даже без программы-переводчика.

Системы оптического распознавания документов.

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов.

Сначала необходимо распознать структуру размещения текста на странице: выделить колонки, таблицы, изображения и т.д. Далее выделенные текстовые фрагменты графического изображения страницы необходимо преобразовать в текст. Текст, преобразованный из графической формы в символьную (текстовую), можно далее обрабатывать любыми текстовыми редакторами. Системы оптического распознавания символов экспортирует результаты распознавания в популярные офисные приложения (Microsoft Office, LibreOffice, OpenOffice и др.), причем распознанный текст можно сохранить в различных текстовых форматах: DOCX, DOC, ODT, RTF, TXT, HTML и др.

Оптическое распознавание символов (англ. Optical Character Recognition, OCR) — электронная конвертация изображений символов и букв в текст, редактируемый на компьютере. Перевод осуществляется программным путем после получения изображения со сканера или фото.

Алгоритмы оптического распознавания. Если исходный документ типографского качества (достаточно крупный шрифт, отсутствие плохо напечатанных символов или исправлений), то задача распознавания решается методом сравнения с растровым шаблоном. Сначала растровое изображение страницы разделяется на изображения отдельных символов. Затем каждый из них последовательно накладывается на шаблоны символов, имеющихся в памяти системы, и выбирается шаблон с наименьшим количеством точек, отличных от входного изображения.

Рис. 3.2. Распознаваемый символ Б накладывается на растровые шаблоны символов

При распознавании документов с низким качеством печати (машинописный текст, факс и т.д.) используется метод распознавания символов по наличию в них определенных структурных элементов (отрезков, колец, дуг и др.). Любой символ можно описать через набор параметров, определяющих взаимное расположение его элементов. Например, буква «Н» и буква «И» состоят из трех отрезков, два из которых расположены параллельно друг другу, а третий соединяет эти отрезки. Различие между буквами в величине углов, которые составляют третий отрезок с двумя другими. При распознавании структурным методом в искаженном символьном изображении выделяются характерные детали и сравниваются со структурными шаблонами символов. В результате выбирается тот символ, для которого совокупность всех структурных элементов и их расположение больше всего соответствуют распознаваемому символу.

Рис. 3.3. Векторные шаблоны символов (А, Б, В и т.д.) накладываются на распознаваемый символ Б

Наиболее распространенные системы оптического распознавания символов используют как растровый, так и структурный методы распознавания. Кроме того, эти системы являются «самообучающимися» (для каждого конкретного документа они создают соответствующий набор шаблонов символов), и поэтому скорость и качество распознавания многостраничного документа постепенно возрастают.

Оптическое распознавание документов. Интеллектуальные системы оптического распознавания позволяют быстро и точно переводить бумажные документы, цифровые фотографии документов и PDF- файлы в электронный вид. При распознавании они полностью сохраняет оформление документа: иллюстрации, картинки, списки, таблицы и т.д. Полученные результаты можно исправлять в текстовых редакторах, сохранять в разных форматах, отправлять по электронной почте и публиковать в Интернете.

Анализ и обработка документа целиком, а не постранично, позволяет понять такие элементы его внутренней структуры, как верхние и нижние колонтитулы, сноски, гиперссылки, подписи к картинкам и диаграммам, стили, шрифты и т.д. Таким образом система оптического распознавания точно распознает и максимально полно сохраняет исходное оформление любого документа (в том числе с текстом на фоне картинок, с цветным текстом на цветном фоне, с обтеканием картинок текстом и т.д.).

Распознавание

Оптическое распознавание различных типов изображений. Системы оптического распознавания символов работают со всеми популярными моделями сканеров, а теперь для распознавания необязательно оснащать компьютер сканером, так как они позволяет распознавать фотографии документов, сделанные цифровой камерой. Существует множество случаев, когда для получения изображения удобнее использовать фотоаппарат, нежели сканер. Например, во время деловой встречи вне офиса, при распознавании вывесок или объявлений, в библиотеке, особенно при работе с толстыми или старинными книгами. Не говоря уже о том, что цифровой фотоаппарат работает в несколько раз быстрее любого сканера.

Системы оптического распознавания символов работают с большим количеством графических файлов распространенных форматов: PDF, BMP, JPEG, TIFF, PNG и других. Для сканирования большого количества страниц в программах предусмотрен специальный режим, позволяющий работать как с автоподатчиком сканера, так и без него.

Системы оптического распознавания символов позволяют даже предварительно обработать изображения, чтобы повысить качество распознавания и упростить дальнейшую работу с документом. Программы могут очистить изображение от мусора, устранить перекосы и искажение строк, инвертировать изображение, повернуть или зеркально отразить изображение, обрезать изображение, стереть часть изображения.

Мультиязычность систем оптического распознавания. Системы оптического распознавания символов являются многоязычными (например, FineReader распознает документы на 184 языках, а для 38 языков предусмотрена проверка орфографии).

Для сканирования большого количества страниц в программе предусмотрен специальный режим, позволяющий работать как с автоподатчиком сканера, так и без него.

Широкий выбор графических форматов

ABBYY FineReader открывает файлы следующих форматов: PDF, BMP, PCX, DCX, JPEG, JPEG 2000, TIFF, PNG, DjVu.

Открытие PDF-файлов. ABBYY FineReader открывает и распознает файлы в формате PDF. Создатель PDF-файла может ограничить доступ к своему файлу, например защитить его паролем, установить запрет на открытие файла или извлечение из него текста и графики. При открытии подобных файлов ABBYY FineReader будет запрашивать пароль, чтобы обеспечить защиту авторских прав создателя файла.

Обработка изображений. ABBYY FineReader позволяет предварительно обработать изображения, чтобы повысить качество распознавания и упростить дальнейшую работу с документом. Программа содержит такие опции, как: очистить изображение от мусора, устранить перекосы, устранить искажение строк, инвертировать изображение, повернуть или зеркально отразить изображение, обрезать изображение, стереть часть изображения.

Системы оптического распознавания форм. При заполнении налоговых деклараций, при проведении переписей населения и т.д. используются различного вида бланки с полями. Рукопечатные тексты (данные вводятся в поля печатными буквами от руки) распознаются с помощью систем оптического распознавания форм и вносятся в компьютерные базы данных.

Сложность состоит в том, что необходимо распознавать символы, написанные от руки, довольно сильно различающиеся у разных людей. Кроме того, система должна определить, к какому полю относится распознаваемый текст.

Системы распознавания рукописного текста. С появлением первого карманного компьютера Newton фирмы Apple в 1990 г. начали создаваться системы распознавания рукописного текста. Такие системы преобразуют текст, написанный на экране карманного компьютера специальной ручкой, в текстовый компьютерный документ.

Форматы текстовых файлов.pdf