Tesseract

Материал из Википедии — свободной энциклопедии

Tesseract — свободная программа для распознавания текстов, разрабатывавшаяся Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». Не так давно (в августе 2006 г) Google купил её и открыл исходные тексты под лицензией Apache 2.0 ^[1] для продолжения разработки. В настоящий момент программа уже работает с UTF-8, поддержка языков (включая русский с версии 3.0^[2][3]) осуществляется с помощью дополнительных модулей.

Содержание [убрать]

[править]

История

Ядро программы Tesseract было разработано в Бристольской лаборатории Hewlett Packard и в Hewlett Packard Co, Greeley штат Колорадо в 1985-1994 годах. В 1996 были проведены значительные изменения и подготовлен порт для Windows. Затем, с 1998 года - частичная миграция с Си на Си++. Значительная часть кода изначально написана на Си, но проводились доработки для совместимости с Си++ компиляторами.^[1]

В настоящее время Tesseract 3.0 собирается под Linux с GCC 2.95 и старше и под Windows с Visual C++ 2008 Express и старше (поддержка Visual C++ 6 была удалена в версии 3.0^[2]). Код на C++ часто использует множество макросов для реализации контейнеров.

[править]

Интересные факты

Программа Tesseract используется менеджером загрузок Tucan Manager для распознавания текстов в тестах CAPTCHA.

[править]

Примечания

1. ↑ ¹ ² Vincent, Luc Announcing Tesseract OCR (August 2006). Проверено 26 июня 2008.
2. ↑ ¹ ² Tesseract 3.00 Released.
3. ↑ Tesseract Download Page.

[править]

Ссылки

п·о·р

[скрыть]

ПО для оптического распознавания символов

Свободные

Проприетарные

CuneiForm • GOCR • Ocrad • OCRopus • Tesseract

CuneiForm • CrystalOCR • Expervision • FineReader • Microsoft Office Document Imaging • OmniPage • Readiris • ReadSoft • SimpleOCR • SmartScore • ViewWise