Текст является одной из основных форм обмена информацией в обществе.
Поэтому текстовые сообщения преобладают в информационных системах.
Наиболее распространенными системами технологии обработки текста являются системы текстового поиска. Их задача заключается в том, чтобы находить в заданных коллекциях на естественном языке такие документы, которые, удовлетворяю информационным потребностям пользователей. Технологии текстового поиска имеют дело с информацией Это могут быть статьи из газет и журналов, технические руководства, отчеты, книги, письма, законодательные акты и пр.
Основной единицей информации в системах текстового поиск, является документ – объем информации, обладающий законченным содержанием и какоголибо рода уникальным идентификатором.
Системы текстового поиска оперируют электронными документами – документами, хранимыми в памяти компьютеров доступными для автоматизированной обработки. Компьютерная обработка и анализ текстовых документов возможны лишь в случае если программно доступны отдельные элементы текстового документа. Поэтому недостаточно просканировать бумажный текстовый документ и хранить полученное его факсимиле в памяти компьютера в виде какого-то графического файла. Необходимо иметь документ в оцифрованном виде – формате, когда каждый компонент текста программно доступен.
Представление текстового документа в оцифрованном виде создается с помощью:
•ввода содержания документа с клавиатуры с использованием какого-либо текстового редактора:
•сканирования его с бумажного носителя и использования программы распознавания оптических символов;
•генерации текста программным путем распознавателями голоса и другими
способами.
Современные технологии текстового поиска охватывают большой спектр проблем:
•теория информационного поиска;
•методы удовлетворения потребностей пользователей в:
•сборе информации;
•организации информации;
•хранении информации;
•поиске информации;
•распространении информации;
•обеспечение интерфейсов между пользователем и средствами управления ресурсами неструктурированной или слабоструктурированной информации, поддерживаемой в компьютерной среде. Значительное место в технологиях текстового поиска занимает обработка естественного языка. Под ней понимается компьютерное решение задач, связанных с пониманием, анализом, выполнением различных операций над текстами на естественном языке, а также с их генерацией. Этот класс задач относится к области искусственного интеллекта.
В середине 1990-х гг. во многих странах мира развернулись работы, связанные
ссозданием электронных библиотек. Они в значительной мере оживили интерес к проблемам текстового поиска. Возникли такие совершенно новые направления, как:
•обнаружение информации в глобальной компьютерной сети;
•текстовый поиск в Web;
•мультиязыковой поиск.
Активное развитие технологий текстового поиска стимулировало создание
поисковых систем более общего класса, которые имеют дело не только с
текстовыми документами, но и с информацией, представленной в различных иных средах. В таких мультимедийных системах содержание объектов поиска – документов – представляет собой сочетание:
•текстовых элементов;
•статических изображений;
•музыкальных произведений;
•мультфильмов;
•видеоклипов и т. п.
Системы текстового поиска оказали значительное влияние на формирование
специфического класса информационных систем, называемых системами управления документами, который широко используются в настоящее время во многих крупны коммерческих компаниях и в других организациях. В таки; системах важная роль отводится не только методам обработки естественного языка, созданным для работы с текстовыми документами, но и организации групповой разработки документов, их хранения, распространения, а также технологиям текстового поиска.