Шрейдер

МЕТОДОЛОГИЧЕСКИЕ АСПЕКТЫ ТЕОРИИ КЛАССИФИКАЦИИ

Классификация облада­ет большой эвристической силой, позволяя предсказать существование неизвестных ранее объектов или вскрыть новые связи и зависимости между уже известными объектами.

Полем применения классификационных процедур являются объек­ты практически всех научных дисциплин, а также и сама система на­ук в целом.

X. Зигварт: «классификация всей совокупности того, что содержит вселенная, явля­лась бы вообще — если представить себе ее в ее завершении — послед­ним и самым зрелым результатом эмпирического исследования... логи­чески самым завершенным познанием, заключающим в себе все». * *

Все математические классификации строятся по следующему принципу. Сначала аксиоматически определяется некоторый класс математиче­ских объектов путем формального описания некоей теории. Затем вы­ясняется, что с точностью до некоторого естественного в данных усло­виях изоморфизма все модели этой теории могут быть описаны «кон­структивно»— заданы определенной структурой. Между аксиоматиче­ским определением и конструктивным описанием всех допустимых воз­можностей и простирается собственно история конкретной области ма­тематики.

В рамках теории классификации мы обязаны рассматривать весь спектр возможных классификаций на шкале «Экстенсиональность — интенсиональность». И действительно, на одном полюсе находятся клас­сификации экстенсиональные, дескриптивные, использующие внешние характеристики объектов, а на другом полюсе — классификации интен­сиональные, сущностные.

Целесообразно различать понятия «таксономия», «классификация» и «систематика». Под классификацией будем понимать разбиение лю­бого множества (класса) объектов на подмножества (подклассы) по любым признакам. Систематикой (хотя бы из этимологических сообра­жений) будем называть установление такой упорядоченности объектов, которая приобретает статус привилегированной системы, выделенной самой природой. Это примерно то же, что и естественная классифика­ция (система). Таксономией назовем учение о любых классификациях с точки зрения структуры таксонов и признаков. Таксономия — это ас­пект метаклассификации.

Экстенсиональное описание таксономии (классификации) ограни­чивается выделением особых подмножеств (таксонов) классификацион­ного поля и установлением между ними обычных теоретико-множественных отношений (включение, пустота или непустота пересечения). С этой точки зрения иерархическая классификация экстенсионально соответ­ствует случаю, когда множество всех таксонов образует дерево по от­ношению включения, а множество таксонов, соответствующих произвольному срезу дерева, образует разбиение классификационного поля. Наоборот, комбинативная (фасетная) структура таксонов экстенси­онально определяется тем условием, что в таксонах можно выделить та­кие группы (фасеты), образующие разбиения классификационного поля, когда любой таксон есть пересечение таксонов из некоторых фасетов.

Интенсиональный подход заставляет расширить классификацион­ное поле до классификационного универсума, состоящего не только из наличных, но и из всех мыслимых объектов, а вместо структуры так­сонов рассматривать двойственную ей структуру классификационных признаков.

Для дальнейшего изложения нам необходимо уточнить, что есть по­нятие . Мы будем рассматривать неотвлеченные понятия, то есть такие, имя которых может означать конкретный предмет, явление или ситуа­цию, а не признак таковых. Иначе говоря, мы будем изучать понятия типа лошадь, продажа, красный, а не такие, как лошадность, продаж­ность, краснота. Мы будем отличать имя понятия (слово, выражающее понятие) от самого понятия. Объем понятия-—это класс объектов, во­площающих данное понятие, или, иначе, класс (в том числе мыслимых!) денотатов имени этого понятия. (Здесь мы отходим от взглядов Р. Карнапа, согласно которому класс мыслимых денотатов есть интенсионал имени, то есть связан скорее не с объемом, но с содержанием понятия.) Рассмотренный класс объектов удобно назвать таксоном, ассоциирован­ным с данным понятием.

Содержание понятия естественно отождествить с концептом имени понятия, то есть, согласно Г. Фреге, с информацией, которую это имя несет о денотате имени. Под денотатом имени подразумевается любой объект, к которому это имя приложимо. Это содержание мы будем да­лее связывать с некоторой структурой (архетипом), которую можно обнаружить во всех объектах соответствующего] таксона. Тем самым имя несет ту информацию об объекте, что в нем присутствует данный архетип.

Имя понятия одновременно служит именем таксона. Именем архетипа можно было бы считать соответствующее отвлеченное понятие.

Архетип понимается нами как структура частей (морфология) и внешних функциональных связей (эколо­гия) объекта. Эти элементы, из которых складывается архетип, мы бу­дем называть меронами. Поэтому можно сказать, что мерой — это обоб­щенная часть архетипа, и отношение мерона к архетипу есть не отно­шение элемент — множество, но отношение типа часть — целое, пони­маемое в широком смысле слова. Это отношение можно дифференци­ровать, различая отношения часть — целое, цель — средства и т. п. Тем самым структура архетипа характеризуется некоторым списком отношений. В свою очередь, каждому мерону архетипа соответствует свое понятие. Совокупность этих понятий образует тему (тематическую область), обозначаемую тем же именем, что и исходное понятие.

Классификационная система при такой трактовке понятия — это система понятий, связанных родо-видовыми отношениями, которая оп­ределяет соответствующую структуру таксонов. Собственно структура таксонов составляет таксономическую компоненту классификации, или таксономию. Последнюю можно трактовать как экстенсиональный ас­пект классификаций. Систему архетипов, соответствующих классифика­ционным понятиям, равно как методы обнаружения архетипов в клас­сификационных объектах, мы будем относить к мерономии. Интенсиональный аспект классификации мы будем теперь связывать с мерономией, поскольку именно архетип как структура меронов оказывается содержанием понятия (концептом имени).

Понятие есть уже синтез своего объема и содержания. Объем понятия — это таксон, обозначаемый именем этого понятия. Можно говорить о реальном объеме понятия — множестве наличных объектов реального мира и о мыслимом (идеальном) объеме — множе­стве мыслимых объектов, обозначаемых именем этого понятия. Содер­жание понятия—это некоторая структура (архетип), которая может быть сопоставлена определенным образом каждому элементу таксона в классификационном универсуме и только этим элементам. Ввиду это­го отныне мы будем рассматривать классифицируемые объекты в меро-номии не просто как целостные образования, но как объекты, которым присуща некоторая структура (архетип).

Архетип членится на мероны. Архетип — это структура частей и внеш­них связей (те и другие являются меронами), присущая всем объектам данного таксона.

Таксону соответствует некоторый архетип — структура, об­наруживаемая во всех объектах таксона и только в них. Помимо меронов в архетипе (как некоторых частей абстрактной структуры), нуж­но рассматривать и мероны в конкретных объектах таксона, то есть реальные части и связи этих объектов. Благодаря тому, что во всех объектах таксона обнаруживается присущий им всем архетип, мероны этих объектов можно поставить во взаимооднозначное соответствие — биекцию, сохраняющую как отношение часть — целое, так и другие специфичные для архетипа отношения. Мероны, находящиеся во взаим­нооднозначном соответствии, называются гомологами, а процедура уста­новления соответствия — гомологизацией. Говоря, что гомологичные мероны двух объектов таксона — это те, которые соответствуют одному и тому же мерону общего архетипа, мы подразумеваем, что гомология является следствием существования общего архетипа для данного так­сона Но возможна и другая точка зрения, когда сначала устанавлива­ется гомология между элементами как некоторое отображение их структур друг на друга, а затем архетип таксона вводится как инвариант этих отображений.

В свою очередь, только возможность установить гомологию между любыми парами объектов, принадлежащих к определенному таксону, придает смысл самому понятию мерона.

Процесс установления гомологии нетривиален. Не так уж очевидно, что крыло птицы — это гомолог передней конечности млекопитающих, а крыло летучей мыши — гомолог кисти у человека. Иногда установление конкретных гомологии в данном таксоне позволя­ет обнаружить присущий ему архетип и тем самым убедиться в закон­ности выделения таксона. Иногда уже выделенный архетип использует­ся при обнаружении гомологии в таксоне и определении естественных границ таксона. Чаще всего оба этих подхода образуют компоненты некоторой итеративной процедуры научного исследования.

Подчеркнем существенность разницы между отсутствием мерона в архетипе и мероном в нулевом состоянии. Во втором случае есть гомология с остальными тетраподами, а в первом случае гомологии почти нет.

Весь круг вопросов, связанный с описанием структуры архе­типа и составляющих его морфологических (экологических) частей — меронов, мы будем называть мерономией и связывать с интенсионалом классификации. Этот термин следует сопоставить с термином мереология, принадлежащим польскому логику С. Лесневскому, который имел в виду построение формальной теории членения объектов на части. Эта теория, по его мысли, призвана была заменить классическую теорию множеств. Для нас мерономия есть область, двойственная таксономии, то есть не замена, но дополнительное (в смысле Н. Бора) теоретико-множественному описание реальности, а именно интенсиональный ас­пект классификации.

В мерономии возможен реалистический под­ход (через обнаружение общего архетипа, задающего гомологии объек­тов) и номиналистический подход, при котором вначале устанавливают­ся частные гомологии, а это уже дает возможность путем абстракции перейти к архетипу. Как бы то ни было, при обоих подходах появляет­ся возможность говорить о структуре меронов в данном архетипе. Каж­дый мерой может находиться в разных состояниях (иметь разные мо­дальности). Тогда каждому мерону в архетипе таксона можно сопоста­вить признак, действующий на этом таксоне, одноименный с данным мероном, а значения этого признака будут соответствовать состояниям (модальностям) мерона.

Состояния некоторого мерона т в архетипе Т можно интерпрети­ровать как корреспонденцию некоторого другого архетипа Г1 на Т, при которой все мероны, кроме мерона т, имеют единственный прообраз (см. рис. ). Каждая из допустимых корреспонденции указанного ти­па — это состояние мерона.

Каждому архетипу (в мерономии) соответствует свой таксон (в таксономии). Подчеркнем, что в таксон, соответствующий данному архетипу, входят все мыслимые объекты из классификационного универ­сума, в которых данный архетип может быть обнаружен регулярным и корректным с определенной точки зрения методом. Тем самым архетип раскрывает содержание понятия, одноименного с таксоном.

Общую картина соотношения между таксономией и мерономией. Эта картина схематически изображена на рис. 3 и постулирует следующую связь между таксономическими и мерономическими категориями. Таксон в классификационном универсуме характеризует (идеальный) объем понятия — множество (или, точнее, класс) всех мыслимых объектов, которые можно назвать именем поня­тия, иными словами, класс объектов, воплощающих данное понятие. Имя этого таксона, вообще говоря, совпадает с именем понятия во множественном числе. В языках с артиклями имя понятия (= имя так­сона) употребляется с неопределенным артиклем, а таксон состоит из всех объектов, к которым применимо то же имя с определенным артик­лем. Содержание понятия — это архетип, присущий каждому из объек­тов таксона. Архетип проявляется при исследовании понятия как синд­ром признаков, по которым можно членить понятие.


Понятие можно делить по некоторому основанию на видовые понятия. Для этого необ­ходимо ввести признак, позволяющий выделить в нем видовые понятия Заметим, что имя признака может совпадать с именем понятия и не совпадать. Важ­но, что «область действия» признака совпадает с таксоном или является более широкой. Вообще говоря, таких признаков может быть много, но мы на рис. 3 описываем ситуацию, связанную только с одним из них. Выбранное основание деления понятия определяет членение таксо­на в таксономии. Если признак дистинктивныи (то есть принимающий на каждом объекте таксона ровно одно значение), то это расчленение задает разбиение таксона на непересекающиеся подтаксоны, в против­ном случае — покрытие пересекающимися подтаксонами.

В мерономии естественному признаку отвечает один мерон. Это и означает, что признак дает членение таксона по единому основанию. На­конец в третьей горизонтали мы от членения таксона переходим к опре­деленному подтаксону, от основания деления понятия — к видовому по­нятию, отвечающему конкретному значению признака, а от мерона к конкретному состоянию — корреспондирующему архетипу. На рис. 4 изображено содержание этих переходов в таксономии и мерономии.


Смысл рассмотренной картины можно изобразить в виде следую­щей диаграммы, где ср — соответствие, которое таксону t сопоставляет архетип Т, а г|> — правило корреспонденции архетипов:

Эта диаграмма для математика означает, что теория классификации есть функтор, отображающий категорию таксонов по вложению в кате­горию архетипов. В этом, по-видимому, содержится направление даль­нейшего развития намеченной теории.

С точки зрения традиционной логики мы имеем здесь экспликацию известной двойственности (закона обратного отношения) между объе­мом и содержанием понятия. Совершенно очевидно, что таксон есть объем понятия. Почти столь же ясно, что архетип есть экспликация содержания понятия. Из приведенной диаграммы следует, что увеличение содержания понятия (переход к более богатому архетипу) соответству­ет уменьшению объема понятия. Самый бедный архетип соответствует всему классификационному универсуму. Самый богатый — минимально­му таксону (в пределе — таксону, состоящему из одного объекта с бес­конечным набором признаков). Эта ситуация в точности соответствует известному закону обратного соотношения между объемом и содержа­нием понятия.

Рассмотренная схема есть основной блок классификационной систе­мы. Так, проведя членение по одному признаку, мы можем вернуться к исходному таксону и провести членение по другому признаку, соответ­ственно выбрав другой мерой. Несколько таких повторений дадут комбинативную (фасетную) структуру на первоначальном таксоне. Наобо­рот, применение этой же процедуры на выделенных при первом ее про­ведении подтаксонах приводит к появлению иерархии таксонов и признаков.

Определение содержания понятия через архетип естественно сопо­ставить с определением смысла (семантики) слова через некоторую ас­социированную структуру понятий. Эти понятия (соответствующие ме-ронам) могут быть не менее сложными, чем определяемое понятие. Ска­жем, строение живой клетки в известном смысле не проще, чем строе­ние организма. Ведь клетка содержит генотип организма, а элементы клетки способны к очень сложному поведению. Поэтому определение содержания понятия через архетип никак не связано с редукцией поня­тия к простейшим. Это совсем разные постановки проблемы.

Идеальная (интенсиональная, сущностная) классификационная си­стема имеет дело со структурой архетипов, раскрывающих сущность соответствующих понятий. Так, периодическая система элементов (та­блица Менделеева) связывает каждый элемент с определенной структу­рой электронной оболочки, а разные изотопы (не отличимые как эле­менты) имеют изоморфные электронные оболочки, различаясь между собой составом и строением атомного ядра. Но при практическом клас­сифицировании объектов мы обычно используем целый ряд сопутствую­щих (диагностических) признаков, которые не содержатся непосредст­венно в архетипе, но коррелированы с ним.

От логики к практике классификации

При традицион­ном, чисто таксономическом подходе к проблемам классификации остается в стороне природа интенсионала. Явно или неявно предполагается, что нам заранее даны и предметная область и архетип объектов (то есть совокупность их меронов с уже установленными соответствиями). Но в том-то и дело, что классификатору-практику все это не дано в оконча­тельном виде. В ходе классифицирования меняется набор используемых признаков, соответственно меняется и гомология меронов. Это влечет изменение структуры архетипа и объема таксона. Иными словами, са­ма классификационная работа ведет к изменению как объема, так и со­держания исходных понятий предметной области. Именно потому клас­сификация — это и цель и инструмент познания. Как заметил в свое время Дж. С. Милль, классификация заставляет идеи о предметах со­провождать одна другую, дает власть над уже приобретенным знанием и ведет к приобретению нового знания. Чисто экстенсиональный таксономический подход не мо­жет справиться с этой задачей без поддержки мерономии с ее интенсио­нальной ориентацией. Соответственно аппарат таксономии должен быть существенно дополнен аппаратом мерономии, описывающим процедуры выделения меронов, установления их соответствия, то есть выведения архетипа. Можно без особого преувеличения сказать, что такого фор­мального аппарата мерономия пока не имеет, хотя некоторыми разра­ботками можно воспользоваться уже сейчас, например, взяв их из тео­рии симметрии.

Архетип объекта входят как внутренние (морфологические), так и внешние (экологические) связи. Ясно, что классификационное исследование меняет по крайней мере наше пред­ставление о таких внешних идеальных связях, как сходство или разли­чие. Уже одно это, не говоря о том, что в ходе исследования происхо­дит изменение набора признаков (а при взвешивании признаков — и изменение их веса), приводит к тому, что на выходе классификацион­ного исследования мы получаем иную систему не только таксонов, но и архетипов этих таксонов. Так же обстоит дело и в мерономическом ис­следовании. Углубляя представление об архетипе, оно неизбежно ска­зывается на представлениях о таксономических отношениях объектов. Таким образом, в конкретном классификационном исследовании с логической неизбежностью взаимопереплетаются таксономические и мерономические процедуры. Это и должно найти отражение в алгоритме классификации, если таковой претендует на продуктивность. Насколь­ко нам известно, алгоритмы, в полной мере отражающие эту связь, пока не найдены.

Как практически осуществля­ется переход от конкретной предметной области к классификационному полю и от объекта к архетипу. Прежде всего заметим, что ни одному классификатору не доводится столкнуться с совершенно девственной, не затронутой хотя бы какой-то классификацией предметной областью. Ему не приходится иметь дело и с объектами, о которых он ничего не знает, то есть архетип которых ему неведом. Такая ситуация означа­ла бы абсолютное невежество классификатора, что противоречит усло­вию задачи, ибо исходное множество (класс) объектов обратилось бы в пустое. Поскольку это не так и поскольку практика классификации имеет дело с наличными или хотя бы мыслимыми объектами, то уже из этого следует, что выделение этих объектов из универсума происхо­дит с помощью некоторого архетипа, пусть гипотетического. Коль скоро мы ставим классификационную задачу, значит, существующая классифи­кация нас не устраивает. В общем случае это означает необходимость пересмотра наличных мерономических представлений. Так как архетип любого таксона неисчерпаем, то учитываемый в таксономическом анали­зе архетип не может претендовать на окончательность. То же можно сказать об объеме и структуре таксона. Таким образом, связь таксоно­мии и мерономии становится рекурсивной (рис. 5), а классификация неизбежно строится методом последовательных приближений.


На каждом этапе последовательных приближений таксон можно рассматривать как размытое множество, в котором мы умеем выделить некоторое «ядро». Попытка установить гомологии между объектами из ядра дает нам некоторый архетип, который затем проверяется на соот­ветствие со всеми объектами таксона. Те из объектов (очевидно, не входящих в ядро), которые этому архетипу не соответствуют, исключа­ются из таксона. Наоборот, в таксоны могут добавляться новые объек­ты, в которых обнаруживается данный архетип Вместе с тем архетип ядра таксона берется не произвольно, а на основе некоторого исходно­го архетипа, полученного на предыдущем шаге метода последовательных приближений. Такова общая схема, допускающая различные реализации на практике. Здесь, однако, уместен вопрос: о приближении к чему идет речь? Где та идеальная цель, к которой стремится классификатор? Этот вопрос возвращает нас к проблеме «естест­венной классификации (системы)».

Место естественной системы среди классификаций

У. Уэвелл сформулировал критерий, отличающий естественные классификации от искусственных: чем больше общих утверждений об объектах дает возможность сделать классификация, тем она естествен­нее. Иными словами, классификация тем более естественна, чем более существенные связи она отражает. Этот критерий точнее сформулиро­вал А. А. Любищев в упоминавшейся выше работе 1923 года: «Наиболее совершенной системой является такая, где все признаки объекта опре­деляются положением его в системе. Чем ближе система стоит к это­му идеалу, тем она менее искусственна, и естественной системой следу­ет назвать такую, где количество свойств объекта, поставленных в функ­циональную связь с его положением в системе, является максималь­ным».

Поскольку при этом объекты группируются в таксоны не произволь­но, а таким образом, что между ними устанавливается наибольшее ко­личество связей, то естественная система (классификация) приобретает статус системы, отвечающей многим критериям реальности: объективно­сти (в том числе воспроизводимости), надежности (стабильности, помехоустойчивости), прогностической силы. Иными словами, есть все основания постулировать, что привилегированное положение неко­торых классификаций, обычно разрабатываемых в каждой предметной области, не является просто данью прагматизму. Оно подкрепляется выделенностью соответствующей «естественной» таксономической (а стало быть, и мерономической) структуры самой природой. Это поло­жение принято иллюстрировать естественной системой организмов и си­стемой элементов Менделеева.

Существование в каждом конкретном случае ес­тественной системы среди возможных дескриптивных классификаций— это очень сильный методологический постулат. Для его принятия недо­статочны никакие эмпирические основания. Из того, что в определен­ных случаях удается обнаружить естественную систему, никак не сле­дует ее существование в общем случае. Основания в пользу принятия такого постулата имеют двоякий характер. С одной стороны, имеются онтологические доводы, состоящие в том, что архетип существует в не­котором естественном многообразии. Это многообразие и порождает естественную систему объектов с фиксированным исходным архетипом. С другой стороны, постулат о существовании естественной системы име­ет эвристическую ценность, стимулируя процесс последовательного уто­чнения таксонов и меронов, который без указанного постулата теряет направленность.

Не менее важный, постулат состоит в признании единст­венности естественной системы. Принятие этого постулата нам пред­ставляется не столь обязательным, как принятие первого. В самом деле, само наличие привилегированных систем не означает, что в каж­дой предметной области с необходимостью должна быть лишь одна та­кая система. Поскольку каждое явление входит в сферу действия различных законов и поскольку мы не можем полностью абстрагироваться от субъект-объектных отношений, приходится допускать как принципи­альную возможность существования нескольких привилегированных си­стем в одной предметной области, так и известную субъективность самой этой привилегированности. Эта субъективность следует, во-первых, из того, что познающий субъект сталкивается с неисчерпаемыми объекта­ми (принцип неисчерпаемости архетипа). Во-вторых, принципиально невозможно на каждом объекте удостовериться в наличии всех извест­ных (даже наиболее весомых) систематических признаков. Ведь по­следние часто устанавливаются путем применения сложных методов исследования или их установление дается ценой уничтожения объекта (например, чтобы определить такой важный признак организма, как состав ДНК в ядре клетки, надо применить сложные биохимические и иные методы исследования, разрушив конкретное ядро и закрыв тем самым пути для его дальнейшего исследования). Многие признаки поэ­тому изучаются на выборочных объектах, а затем полученные данные просто экстраполируются на другие объекты того же таксона на основе гипотезы о корреляции этих признаков с более легко наблюдаемыми.

Принцип «негэнтропии информации»: для получе­ния исчерпывающей информации об объекте (то есть для построения полного архетипа) необходимо затратить неограниченное количество энергии. Поэтому в общем случае абсолютно естественная система не­достижима и остается высокой целью, к которой нужно стремиться, не­смотря на все практические и теоретические трудности.

http://ipr-tomsk.narod.ru/Sys_Mod_2008_konfer.pdf

ОКРЕСТНОСТНАЯ МОДЕЛЬ ЯЗЫКА – ЛОГИКА И/ИЛИ ТОПОЛОГИЯ (ИСТОРИЯ ОДНОЙ ИДЕИ Ю.А. ШРЕЙДЕРА) В.Б. Борщев

Самые известные грамматики – это порождающие грамматики Хомского (generative grammars). Язык понимается в них как множество слов (цепочек) в некотором алфавите, а грамматика – как порождающая процедура, задающая это множество слов. В 1967 г. Ю.А. Шрейдер предложил окрестностную модель языка и, в ее рамках, простые окрестностные грамматики [1]. Это была пионерская работа. Окрестностные грамматики принципиальным образом отличались от грамматик Хомского. Окрестностная грамматика не является порожающей процедурой. Это статическое описание задаваемого языка, набор условий (ограничений), которому подчиняются слова этого языка. Условия эти задаются как набор допустимых окрестностей для каждой буквы каждого слова языка.

Слово окрестность – из топологии и именно топологические ассоциации лежали в основе окрестностной модели языка. Но в определении простых окрестностных грамматик окрестности не были топологическим понятием в точном смысле, это была аналогия. В работе [2] Шрейдер предпринял попытку описывать самые разные окрестностные грамматики на языке топологии. Описание получалось довольно сложным. Мне тогда казалось, что естественного представления окрестностных грамматик и языков в системе топологических понятий не получилось. И сам Шрейдер к использованию топологии для этих целей, насколько мне известно, не возвращался. Тогда же, в конце 60-х и начале 70-х, мы с моим соавтором М.В. Хомяковым обобщили идею Шрейдера и развили ее в несколько ином направлении – в рамках логико-алгебраической (а не топологической) парадигмы. Мы предложили рассматривать язык как множество конечных моделей в некоторой сигнатуре, а грамматику – как множество аксиом, описывающих это множество моделей, т.е предложили использовать теоретико-модельный подход для описания синтаксиса. Опубликовав несколько работ и выступив на нескольких конференциях [3–8], мы не встретили большого интереса и вскоре сами стали заниматься другими вещами. Работы наши были благополучно забыты. Но некоторое время тому назад направление Model-Theoretic Syntax появилось на Западе, и там развиваются аналогичные идеи (назову только несколько работ: [9–12]). А совсем недавно возникло предложение соотнести теоретикомодельный синтаксис с топологией. Цель этого доклада – чуть подробнее рассказать обо всем этом. Из-за ограниченности объема я ограничусь здесь изложением основных идей и примерами, не приводя формальных определений и результатов.

2. Простые окрестностные грамматики

В этих грамматиках, как и в грамматиках Хомского, язык понимается как множество слов в некотором алфавите. У каждого вхождения букв в слово рассматривались их окрестности. Простая окрестностная грамматика определялась как конечный набор допустимых окрестностей. Слово принадлежит языку, задаваемому такой грамматикой, если у каждого вхождения каждой буквы в это слово существует по крайней мере одна допустимая окрестность (принадлежащая данному набору).

3. Наши основные идеи (теоретико-модельный подход)

Тексты, знаковые системы, языки. В отличие от классической математической лингвистики, мы рассматривали не только слова, но и более сложные структуры, такие, как деревья непосредственных составляющих и деревья зависимостей, графы и т.п. Мы следовали при этом работе [13] и называли структуры такого типа текстами (Латинское textus переводится как структура, сплетение, ткань ) , множество всех текстов некоторого типа – знаковой системой, а языком называли некоторое множество текстов данного типа (т.е. каждый язык – это некоторое подмножество какой-нибудь знаковой системы). Продолжая и уточняя работу [13], мы предложили представлять тексты, как конечные модели в подходящей сигнатуре (Сигнатура – это множество символов отношений. Модель в данной сигнатуре – это некоторое множество объектов (несущее множество модели), на котором каждому символу сигнатуры сопоставлено некоторое отношение) . Это позволило уточнить понятия языка, знаковой системы и грамматики, используя терминологию теории моделей. Грамматикой языка мы называли множество аксиом, каждая из которых выполняется для всех текстов языка. Так что язык, описываемый такой грамматикой, это аксиоматизированный класс моделей. Мы разделили аксиомы в таких грамматиках на две главные части. Первая часть аксиом определяет широкий класс текстов в подходящей сигнатуре, обладающих одинаковыми общими (глобальными) свойстами, именно такие классы текстов мы называли знаковыми системами. Упоминавшиеся выше типы текстов являются примерами знаковых систем: слова в некотором алфавите (точнее, множество моделей, представляющих эти слова), деревья непосредственных составляющих, деревья с некоторыми дополнительными отношениями на их вершинах, деревья зависимостей, формулы органической химии (химические графы) и т.п. Чтобы определить конкретную знаковую систему, нужна подходящая сигнатура и набор аксиом, описывающих свойства соответствующих отношений из этом множестве. Каждый язык – это подмножество некоторой знаковой системы. Вторая часть аксиом (составляющих грамматику) выделяет язык в некоторой знаковой системе, описывая локальные (специфические) свойства текстов этого языка. Для описания этих локальных свойств мы обобщили идею окрестностных грамматик Шрейдера. Мы рассматривали окрестности элементов текста (скажем, окрестности вершин в деревьях непосредственных составляющих). Грамматика в узком смысле описывала возможную систему окрестностей для каждого такого элемента. Мы распространили такого рода подход на описание системы переводов между языками. Ниже я опишу наш подход чуть подробнее и рассмотрю некоторые примеры, а затем сравню его с идеями, предлагаемыми в недавних работах по теоретико-модельному синтаксису.

4. Примеры знаковых систем

4.1. Деревья непосредственных составляющих

Пример дерева непосредственных составляющих приведен на рис. 1 и чуть более абстрактный пример – на рис. 2. Чтобы представить такие деревья как конечные модели (т.е. тексты в нашей терминологии), нужно описать их несущие множества и сигнатуру ΩICTr отношений, определенных на этих множествах. Несущее множество дерева – это множество его вершин. Отношения удобно разделить на три части: ΩICTr = ΩTr ΩOrd ΩLbl. Отношения из ΩTr представляют структуру «собственно» дерева, отношения из ΩOrd отвечают за порядок «слева-направо», а отношения из ΩLbl представляют ярлыки (терминальные и нетерминальные символы), метящие вершины дерева.

ΩTr = {↓, ⇓, Root, Leaf}1 , где ↓ и ⇓ – бинарные отношения, ↓ – отношение непосредственной доминации, ⇓ – отношение строгого частичного порядка, транзитивное замыкание отношения ↓ (и, конечно, ↓ – транзитивная редукция отношения ⇓). Дерево непосредственных составляющих должно быть деревом по отношению ↓ в смысле теории графов. Root и Leaf – унарные отношения, Root метит корень дерева, а листья помечены Leaf. ΩOrd = {→, ⇒}состоит из двух бинарных отношений: ⇒ – отношение строгого частичного порядка (слева направо) на вершинах дерева и → – транзитивная редукция ⇒, соотносящая «непосредственных соседей». Два частичных порядка ⇓ и ⇒ соотносятся естественным образом. Использованная здесь нотация отражает «перпендикулярность» этих отношений, их точное соотношение описывается обычно аксиомами «дополнительного распределения» и «несмешения составляющих» (exclusivity and non-tangling conditions). Как уже говорилось, отношения из ΩLbl представляют терминальные и нетерминальные символы. На «картинках» при изображении деревьев непосредственных составляющих (см. рис. 1 и 2 выше) обычно линиями или стрелочками изображается только отношение ↓. Аксиомы, выделяющие знаковую систему деревьев непосредственных составляющих (множество всех деревьев) из множества всех текстов в сигнатуре ΩICTr, легко записать на языке логики первого порядка (Кроме, конечно, аксиомы конечности, выделяющей тексты в этой сигнатуре из всех моделей, не обязательно конечных.) . Я не буду здесь этого делать (неформально и не очень полно они описаны выше).

4.2. Слова, деревья зависимости и другие примеры

Приведу с минимальными комментариями примеры текстов, представляющих слова в некотором алфавите, и деревья зависимостей. Несущее множество каждой модели (текста), представляющей некоторое слово в данном алфавите, состоит из вершин, представляющих вхождения букв в это слово. Сигнатуру ΩStr отношений таких моделей естественно разделить на две части: ΩStr = ΩLOrd ΩTLbl Отношения из ΩLOrd, подобно отношениям из ΩOrd выше, представляют порядок «слева-направо», ΩLOrd = {→, ⇒, Left, Right}, только здесь ⇒ – это отношение линейного порядка, а → – его редукция; унарные отношения Left и Right метят «крайние» вхождения. Отношения из ΩTLbl представляют буквы алфавита. Деревья зависимостей (графы Теньера) представляют грамматические зависимости на словах предложения. В таких деревьях нет нетерминальных вершин. Сигнатура ΩDT этой знаковой системы – это, грубо говоря, смесь отношений из рассмотренных выше сигнатур ΩICTr and ΩStr, ΩDT = ΩTr ΩLOrd ΩTLbl. Отношения из ΩTr и ΩLOrd обдают свойствами, описанными выше, но их соотношения несколько иные, я не буду здесь на этом останавливаться (см., например, [14]). Мы рассматривали и другие типы текстов (другие знаковые системы), представляющие контекстные грамматики Хомского, уже упоминавшиеся химические графы [15] и ряд других.

5. Окрестностные грамматики и языки

5.1. Окрестности и типы окрестностей

Как уже говорилось, мы выделяем языки внутри знаковой системы, описывая локальные свойства их текстов. Мы рассматриваем окрестности вершин текстов, разные типы таких окрестностей и окрестностные грамматики. Говоря неформально, окрестность вершины текста – это некоторый подтекст, содержащий эту вершину. Окрестностная грамматика накладывает ограничения на возможные окрестности вершин текста. Текст принадлежит языку, задаваемому грамматикой, если для каждой его вершины выполняются эти ограничения. В самом простом случае, окрестностная грамматика – это набор допустимых окрестностей и текст принадлежит языку, если у каждой вершины есть окрестность из этого набора. Я ограничусь здесь неформальным описанием примеров для деревьев непосредственных составляющих.

5.2. «Кусты» и другие окрестности для деревьев

Простейшие окрестности для деревьев непосредственных составляющих – это «кусты». Такая окрестность для каждой вершины x содержит эту вершину и все ее непосредственные составляющие (если они есть), т.е. каждую вершину y, такую, что ↓(x, y)

Рассматривались и другие типы окрестностей, например, произвольные поддеревья, содержащие данную вершину.

5.3. Окрестностные грамматики и окрестностные языки

Как уже говорилось, простейшая окрестностная грамматика – это конечный набор окрестностей некоторого типа. Окрестностный язык, задаваемый такой грамматикой, – это множество деревьев, у каждой вершины которой найдется окрестность из данного набора. Например, каждой бесконтекстной грамматике можно сопоставить набор описанных выше «кустов»: например, правилу типа P → QPb сопоставляется куст, изображенный в левой части рис. 5, а каждому терминальному символу – тривиальную окрестность (см. правую часть рис. 5). Такая грамматика задает окрестностный язык, содержащий все синтаксические структуры, определяемые исходной бесконтекстной грамматикой. Таким образом, окрестностные грамматики – это тоже аксиомы. выполняющиеся на текстах окрестностного языка. Их можно представить и в виде «обычных» формул языка первого порядка. Но окрестностное представление более структурировано и наглядно.

Итак, аксиомы, задающие знаковую систему, вместе с каждой окрестностной грамматикой, определяют окрестностный язык, как аксиоматический класс моделей.

5.4. Что было сделано

1. Мы получили целый ряд формальных результатов, прежде всего по характеризации окрестностных языков в знаковой системе деревьев непосредственных составляющих.

2. Были подробно исследовны некоторые другие знаковые системы, в частности системы, соответствующие контекстым грамматикам Хомского, именным окрестностным грамматикам [16] и др.

3. Как уже говорилось, идея окрестностных грамматики была распространена на описание переводов текстов. Перевод описывлся как пара текстов с бинарным отношением «переводимости» между вершинами этих текстов. Окрестностная система переводов – это множество таких пар. задаваемое окрестностной грамматикой.

4. Идея окрестностых грамматик была использована для описания функций и отношений, которое можно назвать окрестностной версией логичесого программирования [17–18]. При таком описании отношений рассматривались окрестности не для вершин, а для предикатных символов. Эта идея могла бы быть полезной и для описания окрестностных языков.

6. Недавние работы по теоретико-модельному синтаксису

Из-за недостатка места только несколько слов о двух таких работах [9; 11]. Обе они имеют дело с деревьями непосредственных составляющих, вершины которых помечены «признаковыми структурами» (feature structure decorated trees), т.е. наборами грамматических признаков и их значений (например, CASE со значениями типа nominative, genitive, etc или PERSON со значениями 1d, 2d, 3d). Такие структуры рассматривались в Generalized Phrase Structured Grammar (GPSG), см. [19]. В обеих работах такие деревья рассматриваются как модели, на которых выполняются формулы некоторого логического языка, т.е. используется теоретико-модельный подход. В работе [11] используется так называемый monadic second-order language, а в работе [9] – язык пропозициональной модальной логики. Остановлюсь на второй работе. Сами по себе деревья непосредственных составляющих (без признаков) представляются примерно так же, как в разделе 4.1 выше. Но поскольку для их описания используется модальная логика, они интерпретируются, как модели Крипке: вершины рассматриваются как «возможные миры», а отношение непос редственной доминации как отношение «доступности» между «возможными мирами». Грамматика задается, как формула модальной логики. Формула истинна в модели (т.е. дереве), если она истинна в каждой вершине дерева (в каждом возможном мире). Язык пропозициональной модальной логики содержит кроме констант и булевских операций несколько модальных операторов, в частности унарные операторы ↓, ↑. Так, формула ↓φ выполняется на вершине u дерева, если среди ее непосредственных составляющих существует вершина u’, на которой выполняется формула φ. Так как деревья «обогащены» признаковыми структурами, то используется «двуслойный» язык модальной логики (один слой для описания структуры дерева. а другой для описания структуры признаков). Нужно заметить, что хотя направление это (Model-Theoretic Syntax) в настоящее время активно развивается, оно до сих пор, увы, достаточно маргинально в общем потоке синтаксических работ

7. Снова топология

Несколько лет тому назад Е.М. Бениаминов попросил меня быть оппонентом диссертации В.А. Лапшина, научным руководителем которого он был. Диссертация была посвящена синтаксическому анализу бесконтекстных языков, я когда-то давно этим занимался. Мне показалось, что промежуточные результаты синтаксического анализа (со всеми вариантами) было бы естественно описывать окрестностными грамматиками (аналогичными грамматикам, которые рассматривали мы с Хомяковым). Я обратил внимание В.А. Лапшина на эти работы, и он ими заинтересовался. Сравнительно недавно он предложил описывать окрестностные грамматики на языке топологии [20] – не совсем так, как когда-то делал Шрейдер, а опираясь на теоретико-модельный подход. Но опять возникла топология. Результаты еще нужно осмыслить...

Литература

  1. Шрейдер Ю.А. Окрестностная модель языка: Труды симпозиума по применению порождающих грамматик (Тарту, сент. 1967). Тарту, 1967.

  2. Шрейдер Ю.А. Топологические модели языка: Рукопись. 1968. 34 с.

  3. Борщев В.Б., Хомяков М.В. Окрестностные грамматики и перевод. // НТИ. 1970. Серия 2. № 3. С. 39–44.

  4. Борщев В.Б., Хомяков М.В. Аксиоматический подход к описанию формальных языков // Математическая лингвистика / Под ред. С.К. Шаумяна. М.: Наука, 1973. С. 5–47.

  5. Борщев В.Б., Хомяков М.В. Окрестностные переводы // Математическая лингвистика / Под ред. С.К. Шаумяна. М.: Наука, 1973. С. 48–62.

  6. Borščev, V.B. and M.V. Xomjakov. 1973. Axiomatic approach to a description of formalized languages and translation. Neighbourhood Languages. In F. Kiefer (ed.), Linguistische Forschungen,18, Soviet Papers in Formal Linguistics, vol. 3, Athanaeum, 37–114.

  7. Borščev, V.B. and M.V. Xomjakov. 1976. Neighbourhood Grammars and Translation. An axiomatic Approach to the Description of Formal Languages. In Ferenc Papp and Győrgy Szëpe (eds.), Papers in Computational Linguistics (Proceedings of the 3rd International Meeting on Computational Linguistics, Debrecen, 1971). Budapest, 427–432.

  8. Borščev, V.B. and M.V. Chomjakov. 1977. Neighbourhood Description of Formal Languages. In Leo S. Olschki (ed.), Computational and Mathematical Linguistics. Proceedings of the International Conference on Computational Linguistics, Pisa, 27/VIII-1/IX 1973, Firenze 3–7.

  9. Blackburn, Patrick, Claire Gardent, and Wilfried Meyer-Viol. 1993. Talking about trees. Proceedings of the 1993 Meeting of the Europeen Chapter of the Association for Computational Linguistics, 21-29.

  10. Blackburn, Patrick and Wilfried Meyer-Viol 1997. Modal Logic and ModelTh eoretic Syntax. In M. deRijke (ed.), Advances in Intensional Logic, 29-60. Dodrecht, Kluwer Academic.

  11. Rogers, James 1997 “Grammarless” phrase structure grammar. Linguistics and Philosophy 20, 721–746.

  12. Pullum, Geoff rey K. and Barbara C. Scholz. 2001. On the Distinction between Model-Th eoretic and Generative-Enumerative Syntactic Frameworks. In Philippe de Groote, Glyn Morill and Christian Retore (eds.) Logical Aspects of Computational linguistics, Lecture Notes in Artifi cial Intelligence 2099. Springer, 17–43.

  13. Арапов М.В., Борщев В.Б, Шрейдер Ю.А. О возможном способе определения основных понятий математической лингвистики: Доклады международного симпозиума МАШПЕРЕВОД-67. Будапешт, 1967. 25 с.

  14. Тестелец Я.Г. Введение в общий синтаксис. М.: РГГУ, 2001.

  15. Пантюхина М.Е., Борщев В.Б., Хомяков М.В. Об одном способе описания языка химических структурных формул // НТИ. 1972. Серия 2. № 5. С. 34–36.

  16. Борщев В.Б. Окрестностные грамматики // НТИ. 1967. № 11. С. 39–41.

  17. Борщев В.Б., Хомяков М.В. Схемы для функций и отношений: Препринт доклада на семинаре стран-членов СЭВ «Автоматическая обработка текстов на естественных языках». Ереван, 1972.

  18. Борщев В.Б., Хомяков М.В. Схемы для функций и отношений // Исследования по формализованным языкам и неклассическим логикам / Под ред. Д.А. Бочвара. М.: Наука, 1974. С. 23–49.

  19. Gazdar, G., Klein,E., Pullum, G., and Sag, I. 1985. Generalized Phrase Structure Grammar. Basil Blackwell; Harvard University Press.

  20. Лапшин В.А. Языки синтаксических диаграмм. Окрестностные грамматики и их топологические интерпретации: Рукопись. РГГУ. М., 2008.

  21. https://www.researchgate.net/publication/268259071_OKRESTNOSTNYE_GRAMMATIKI_I_MODEL-THEORETIC_SYNTAX

  22. http://www.dialog-21.ru/media/2358/borschev-v.pdf

  23. Для каждого символа языка задается конечное число его «окрестностей» — цепочек, содержащих данный символ (центр окрестности) где-то внутри. Набор таких окрестностей для каждого символа алфавита языка называется окрестностной грамматикой. Цепочка считается принадлежащей языку, задаваемому окрестностной грамматикой, если каждый символ этой цепочки входит в нее вместе с некоторой своей окрестностью.

Ю.А. Шрейдер предложил идею окрестностных грамматик. Формальные грамматики – как средство моделирования синтаксиса – придумал лет за 10 до этого Н. Хомский, основоположник «новой» лингвистики. Параллельно, и, видимо, независимо, основной частный случай таких грамматик был придуман и в программировании – под названием «бэкусовы нормальные формы». Грамматики Хомского строились как система правил-подстановок, с помощью которых порождались предложения языка. Они так и назывались – порождающие грамматики (Generative Grammars). Идея Шрейдера была принципиально другой. Правильное («хорошее») предложение правильно не потому, что его можно породить некоторой системой подстановок, а потому, что оно «правильно устроено» само по себе, имеет правильную структуру. Эту «внутреннюю правильность» Шрейдер предложил описывать с помощью систем окрестностей. Он надеялся использовать для описания формальных языков и другие топологические конструкции – непрерывные отображения и т.п. Одна из его работ так и называлась – «Топологическая модель языка». Но что-то не совсем складывалось, и в результате осталась идея окрестностей и ее реализация для сравнительно простого примера. Нам с Максимом идея Шрейдера очень понравилась, и мы стали ее развивать в несколько ином, так сказать, логико-алгебраическом направлении. Как раз в это время на нашем рабочем семинаре мы изучали только что вышедшую в русском переводе (и, поэтому доступную – тираж!) книгу Кона «Универсальная алгебра». И логико-алгебраический дух книги Кона показался нам очень подходящим для описания текстов и грамматик. Наша первая идея касалась представления текстов. Грамматики Хомского представляли предложения языка, как последовательность слов, формально – цепочек символов в некотором алфавите. В процессе порождения такой цепочке сопоставляется структура – дерево составляющих. Действительно, основной «клей», которым мы склеиваем слова в предложении, это порядок, в котором мы их произносим. Кроме того, в этой последовательности слов мы, так сказать, «расставляем скобки», выделяя тем или иным способом уже упомянутую систему составляющих. Но в текстах есть и другие отношения, другие типы клея, которым мы скрепляем их части. В русcrом языке, например, это согласование и управление, анафорические связи, использующие то же согласование и т.п. Такого рода отношения встречаются и в логических языках, и в языках програмирования. Для таких «дополнительных» отношений в грамматиках Хомского не было изобразительных средств. А чтобы задавать «правильные тексты», эти отношения естественно было явно вводить в структуру текста и описывать их в грамматике. Мы предложили представлять тексты, как множества элементов с некоторым набором отношений, говоря логическим языком – как модели в некоторой сигнатуре. Вторая идея относилась к грамматике, т.е. к способу описания правильных текстов. Следуя Шрейдеру, мы предложили описывать правильность текстов прежде всего с помощью систем окрестностей. Окрестности – это своеобразные аксиомы, определяющие локальную правильность текста. Можно рассматривать и аксиомы другого типа, задающие какие-то общие, так сказать, глобальные ограничения на тип текстов (например, что тексты – это деревья или еще какого-то типа структуры). Все вместе эти аксиомы задают теорию (в логическом смысле), теорию, задающую класс моделей – текстов данного языка. Эта теория и есть грамматика, текст является грамматически правильным, если он удовлетворяет аксиомам данной теории, т.е является ее моделью. Наш аппарат позволял естественным образом представлять известные типы языков, но его возможности, как я уже писал, были гораздо шире.

https://people.umass.edu/borschev/Russian/memuar/friends/MaximNov2012.pdf