Существует ли код писателя?
Все что написано в этой статье - чистая правда, но не пытайтесь повторить это самостоятельно без компьютера.
Для начала хочу рассказать о двух персонажах. Первый из них Лоренцо Валла (1407- 1457 — итальянский гуманист, представитель исторической школы эрудитов.
В 1440 году Валла, пользуясь покровительством короля Альфонса — врага папы — написал знаменитое «Рассуждение о подложности Константинова дара». Это эпохальное сочинение, в котором Валла с помощью научных аргументов филологического, нумизматического, исторического характера разоблачил средневековую подделку. Читая аргументы Валлы не верится, что его с нами отделяет 6 столетий:
… До сих пор мы рассуждали об имени и о глаголе, а также об образованном от них причастии, теперь же мы поговорим о других частях речи и особенностях каждой из них, а затем мы рассмотрим их во взаимосвязи.
Ну а варварские обороты речи, разве не свидетельствуют они о том, что вздор этот сочинен не в век Константина, а в более поздний век? “Мы решаем, что... они должны пользоваться” вместо того, чтобы сказать “решаем, чтобы они пользовались”; так теперь обычно говорят и пишут невежды: “Я приказал, что ты должен прийти”, вместо того, чтобы сказать “я приказал, чтобы ты пришел”. И “решили” и “пожаловали”, как будто все это происходило не в то самое время, а было совершено уже некогда раньше …
Кроме того, Валла обосновал, что приписываемая Цицерону так называемая «Риторика к Гереннию» на самом деле ему не принадлежит (этот вывод принимается и современной филологией). В этой статье опыт Валлы нам не понадобится – мы его используем в последующих экспериментах по атрибуции текста с частотой использования частей речи.
Второй персонаж - Томас Корвин Менденхолл (4 октября 1841 г. - 23 марта 1924 г.) был американским физиком- самоучкой. В 1887 году Менденхолл опубликовал одну из самых ранних попыток стилометрии, также известную как профилирование авторов, количественный анализ стиля письма. Вдохновленный английским математиком Августом де Морганом в 1851 году, Менденхолл попытался охарактеризовать стиль разных авторов через частотное распределение слов разной длины. В этой статье Менденхолл упомянул возможное отношение этой техники к вопросу об авторстве Шекспира , а несколько лет спустя эту идею подхватили сторонники теории о том, что сэр Френсис Бэкон был истинным автором произведений, обычно приписываемых Шекспиру. Менденхолл заплатил команде из двух человек для проведения необходимого подсчета, но результаты, похоже, не подтвердили его теорию.[Для сравнения, в 1901 году Менденхолл также проанализировал работы Кристофера Марло, и сторонники марловской теории авторства произведений Шекспира с нетерпением ожидали его открытия. Но сам Менденхолл сказал о своих результатах - «в характерной кривой их пьес Кристофер Марлоу примерно так же похож на Шекспира, как Шекспир похож сам на себя".
Поскольку от опытов Меденхолла нас отделяет всего 140 лет, попробуем проверить его теорию определения авторов текстов по частотному распределению слов. Для этого нам уже не надо никого нанимать на работу и достаточно просто включить компьютер. Кроме того, метод Менденхолла достаточно нагляден и его результаты легко проследить на графике.
Начнем сразу с главной Книги. Возьмем четыре канонических Евангелия и попробуем проверить отличается ли стиль их авторов один от другого по методу Менденхолла.
Почему я взял этот пример? Во первых апостолы Иоанн, Марк , Матфей и Лука писали про одни и те-же события, во вторых длина их текста примерно одинакова и в третьих, если бы метод не сработал я бы просто не стал писать дальше эту статью. Заодно мне конечно же хотелось проверить теорию заговора про единое авторство Евангелий.
Итак, рассмотрим результаты первого опыта.
По оси Х обозначены длины слов из евангелий, а по оси У количество слов этой длины в текстах. Невооруженным взглядом видно, что все четыре кривые отличаются.
Графики построены относительно Евангелия Иоанна (кривая черного цвета). Мы видим, что слова длиной в три буквы у него в тексте встречаются 2300 раз, двухбуквенные 2100 и потом по убыванию идут однобуквенные, пятибуквенные и так далее. Таким образом код Иоанна можно изобразить следующими цифрами 3-2-1-5-4-6-7-8-9-10-11-12-12-13-14-15-16.
Построим аналогичный код для текста Луки (кривая синего цвета) и поучим совершенно другую последовательность: 3-1-2-6-5-4-7-8-9-10-11-12-12-13-14-15-16.
Вывод из примитивного расчета – Коды четырех Евангелий отличаются и это значит, что они написаны разными людьми! Кроме того, мы получили стилистические коды четырех авторов Евангелий.
Но любой эксперимент должен быть подтвержден другими примерами.
Посмотрим на три произведения Достоевского. Я взял примерно одинаковые по длине произведения – “Бедные люди”, “Игрок” и первую часть “Братьев Карамазовых”. Что мы видим на графике?
Мы с вами получили Код Достоевского 3-2-1-5-4-6-7-8-9-10-11-12-13-14-15 !!!.
Да есть небольшие отличия в “Игроке”, но мы знаем, что у Достоевского просто не было денег на ставки в висбаденском казино и эта повесть писалась очень быстро и под заказ.
Попробуем наложить на график Достоевского повесть “Казаки” Льва Толстого (голубая линия на графике) и получить код Льва Николаевича.
Отличный результат! Наглядно видно, как три кривые Достоевского похожи друг на друга и отличаются от графика Толстого.
Итоговый результат:
Код Достоевского 3-2-1-5-4-6-7-8-9-10-11-12-13-14-15
Код Толстого 6-5-2-1-7-3-4-8-9-10-12-13-14-15
Двигаемся дальше. Вспомним споры по поводу авторства. Расположим на одном графике Произведения Ильфа и Петрова, Булгакова и Олеши и Катаева.
Код Олеши – 6-3-2-5-7-1-4-8-910-11-12-13-14-15. Код Ильфа и Петрова начинается с 6-5. Однозначно и “12 стульев” c Золотым теленком” написаны ими. Код Булгакова начинается с единицы. Код Катаева(черная кривая) тоже уникален и у единственного из всех начинается на 5. Так что все подозрения насчет причастности Катаева к авторству “12 стульев” можно отбросить.
В заключение решим школьную задачку с Шолоховым и его “Тихим Доном”.
Из графика четко видно, что автор второй части “Тихого Дона”(красная кривая) написал “Поднятую целину(зеленая)” и ничего общего не имеет с автором первой половины “Тихого Дона”.
В конце повторюсь, что моя статья рассчитана на широкий круг читателей, поэтому я рассказал о самом первом и примитивном алгоритме измерения стиля.
Добавлю также, что если в компьютер заранее загрузить все рассчитанные коды писателей, то он сможет без труда сравнить любой новый для него текст и по коду определить его авторство.
В следующих статьях я постараюсь рассказать о других, более точных и современных методах измерения стиля. Например о методе Адама Килгариффа, Джона Берроуза а также вернуться к методу Лоренцо Валла и попробовать идентифицировать авторство текста по частотным характеристикам частей речи.