Методи та інструменти текстового аналізу

Спільний українсько-латвійський проєкт 2021-2022

Повна назва проєкту: Методи текстового аналізу та інструменти визначення подібності у великих національних текстових архівах: на прикладі Латвійської Національної цифрової бібліотеки та Національного репозитарію академічних текстів України

Реалізується за підтримки Міністерства освіти і науки України та Державного агентства з розвитку освіти Латвійської Республіки

Хронологія проєкту

№1

18 березня 2020 року було оголошено старт конкурсу спільних українсько-латвійських науково-дослідних проєктів на
2021-2022 рр.

№ 2

Сформовано спільний українсько-латвійський творчий колектив, визначено та узгоджено загальні характеристики проєкту


№ 3

15-18 травня подано заявки на участь у конкурсі до Міністерства освіти і науки України та Державного агентства з розвитку освіти Латвійської Республіки


№ 4

17 грудня 2020 р. проєкт затверджено протоколом засідання українсько-латвійської Спільної Комісії з науково-технологічного співробітництва


5

У 2021 році розпочато реалізацію проєкту (відповідно до наказів МОН від 26.10.2021 №1138 та від 05.11.2021 №1184)


6

У 2022 році продовжено реалізацію проєкту (відповідно до наказів МОН від 20.03.2022 №264 та від 07.04.2022 №315)


Мета проєкту


Ми бажаємо створити додатковий інструмент для ресурсів, що надаються нашими установами, і закласти теоретичні та методологічні основи для майбутньої розробки нових інструментів і функціональних можливостей для LNDL і NRATU.

Прототип інструменту аналізу і визначення подібності текстів сприятиме розвитку науково-дослідних і прикладних досліджень у майбутньому. Дані методи вже знаходяться на передньому краї у таких областях досліджень, як комп'ютерна лінгвістика (в т.ч. штучний інтелект, машинне навчання, технології обробки мови), літературознавство, комунікаційні науки (журналістика, політична комунікація), філософія, а також науки про здоров'я. Послуги з визначення подібності користуються попитом у закладах вищої освіти та академічних видавничих спільнотах. На відміну від юридично обмежених і комерціалізованих сервісів, що виконують конкретні завдання для наукових кіл, впровадження інструменту подібності тексту в національних текстових архівах надає значно ширший доступ до сфери використання як з точки зору структури контенту, так і збільшення масштабу дослідницьких цілей.

Завдання проєкту

Вивчити існуючі алгоритми і методи визначення подібності та виявити найбільш ефективні підходи для аналізу тексту та подібності у наявних текстових масивах (LNDL і NRATU). Це стане теоретичною і методологічною основою для подальшого тестування обраних методів, а також сприятиме накопиченню знань у сфері визначення подібності.

Розробити середовище для тестування (спільне для LNDL і NRATU), що дозволяє проводити експерименти в рамках даного проєкту і стане прототипом для подальшої розробки інструментів аналізу текстів, які будуть використовуватися й після завершення виконання даного проєкту

Застосувати прототипи інструментів і методи, а також протестувати обґрунтованість обраних підходів на 3-4 прикладах, побудованих на темах, що відносяться до соціальних і гуманітарних тематик. Це дозволить порівняти методи, які розглядатимуться (включаючи порівняння зручності використання аналогічних методів на різних мовах), а також зробити внесок у дослідження сфери цифрових гуманітарних і соціальних наук

Інформувати та залучати студентів соціальних та гуманітарних спеціальностей, членів наукової спільноти, заохочувати їх до застосовування методів цифрового аналізу і визначення подібності у текстах власних досліджень, а також по-новому відкривати для себе суть роботи LNDL і NRATU. Сприяти створенню мереж серед ентузіастів цифрових гуманітарних і соціальних наук, фахівців з інформатики, бібліотекарів

Проєкт реалізується за підтримки Міністерства освіти і науки України

Підставою для виконання проєкту є Угода між Урядом України та Урядом Латвійської Республіки

про співробітництво в галузі освіти, науки та культури від 21.11.1995