корпустекстівіванафранка

Соломія Бук

Корпус текстів Івана Франка

Назад На головну

Інформатизація гуманітарної сфери є загальною тенденцією ХХ-ХХІ століть. Застосування комп’ютерних технологій в лінгвістиці ставить на перший план та уможливлює створення корпусу текстів Івана Франка відповідно до основних світових стандартів

    1. репрезентативності — охоплення усіх без винятку текстів І. Франка,

    2. машиночитаності — власне електронне їх опрацювання,

    3. розміченості (анотованості) — подання інформації зовнішньої стосовно тексту (дані про автора час та місце написання твору, ідентифікація жанру, тому, частини тощо) та інформації про сам текст (морфологічне, синтаксичне, семантичне маркування).

Вважаємо, що джерелами корпусу текстів Франка необхідно прийняти першодруки (їх розглядаємо у кожному конкретному випадку) та сучасні (насамперед до уваги взято прижиттєві та академічні) видання творів. Зважаючи на складність правописного питання текстів, пов’язаного з творчістю І. Франка (сам автор у різні періоди творчості писав різними правописами, а сучасні редактори, з метою наближення до сучасного мовлення, вносили ще й свої правки), заплановано, що корпус буде паралельним. Це дасть можливість працювати у пов’язаних між собою режимах декількох видань одного і того ж твору (з обов’язковим описом кожного у зовнішній розмітці).

Створення корпусу текстів Івана Франка видається єдино можливим шляхом цілісного комплексного опрацювання лексикону письменника, що відкриває значно ширші перспективи для подальшої роботи з його доробком у порівняння зі “ручною працею”, зокрема карткуванням. Реалізація зазначеної ідеї дасть можливість

    1. автоматично укладати частотні словники до будь-якого конкретного чи групи заданих творів;

    2. отримати конкорданси, що подають до кожного реєстрового слова (чи словоформи) усі або вибіркові контексти його вживання, достатні для ідентифікації його лексичного значення;

    3. здійснювати автоматичний пошук твору за будь-яким зареєстрованим у зовнішній розмітці параметром (наприклад, твори певного жанру, написані певного року (періоду), підписані певним псевдонімом, написані певною мовою, наявність чи відсутність епіграфа тощо);

    4. здійснювати автоматичний пошук будь-якої лексеми, фразеологізму, порівняння у будь якій формі у всіх творах письменника;

    5. фіксувати час першого та останнього використання певної лексеми у працях І. Франка;

    6. реконструювати західний варіант української літературної мови кінця ХІХ-поч. ХХ ст.;

7) реконструювати територіальні та соціальні діалекти кінця ХІХ-поч. ХХ ст., адже своїх персонажів автор наділяв мовленням того середовища, яке вони представляють, тощо.

Тільки за допомогою такого електронного ресурсу можливо створити повноцінний словник мови Івана Франка.

Зараз реалізація проекту перебуває на стадії стратегічного планування, проте вже створено у першому наближенні корпус текстів роману “Перехресні стежки”, на основі якого укладено частотний словник та конкорданс, доступний для загального користування в Інтернеті (http://www.ktf.franko.lviv.ua/~andrij/science/Franko/concordance.html). Це свідчить про абсолютну реальність здійснення описаного проекту.

Скільки часу займе проект залежить від конкретної технічної та фінансової підтримки держави.

Деякі результати проекту:

    1. Бук С. Корпус текстів Івана Франка: спроба визначення основних параметрів // Прикладна лінгвістика та лінгвістичні технології: MegaLing 2006: Зб. наук. пр. / НАН України. Укр. мовн.-інформ. фонд, Таврійськ. нац. ун т ім. В. І. Вернадського; за ред. В. А. Широкова.— К.: Довіра, 2007.— С. 72–82.

    2. Бук С. Корпус текстів Івана Франка: особливості структурної анотації // Горизонти прикладної лінгвістики. Доповіді міжнародної наукової конференції 24-28 вересня 2007, Україна, Крим, Партеніт / Ред. В. А. Широков, С. С. Дікарєва. Мовно-інформаційний фонд України. Таврійський національний університет ім. В. І. Вернадського.— Сімферополь: В-во "ДиАйПи", 2007.— С. 112–113.

    3. Бук С. Структурне анотування у корпусі текстів (на прикладі прози Івана Франка) // Українська мова.— 2009.— № 3.— С. 59-71.

    4. Бук С., Ровенчак А. Он-лайн конкорданс роману Івана Франка “Перехресні стежки”.

    5. Бук С. Н.Конкорданс роману Івана Франка «Прехресні стежки» та світова практика // Proceedings of the International Conference on Computer Sciences and Information Technologies. September 27th–29th, Ukraine, Lviv.— Львів: В-во НУ «ЛП», 2007.— С. 330–331.

    6. Бук С. Письменницька лексикографія та корпус текстів // Magister Dicti: Збірник статей на пошану проф. Ф. С. Бацевича.— Львів: Видавничий центр Львівського університету, 2009.— C. 42-56.

Назад На головну