Методи та інструменти текстового аналізу
Спільний українсько-латвійський проєкт 2021-2022
Повна назва проєкту: Методи текстового аналізу та інструменти визначення подібності у великих національних текстових архівах: на прикладі Латвійської Національної цифрової бібліотеки та Національного репозитарію академічних текстів України
Реалізується за підтримки Міністерства освіти і науки України та Державного агентства з розвитку освіти Латвійської Республіки
Хронологія проєкту
№1
18 березня 2020 року було оголошено старт конкурсу спільних українсько-латвійських науково-дослідних проєктів на
2021-2022 рр.
№ 2
Сформовано спільний українсько-латвійський творчий колектив, визначено та узгоджено загальні характеристики проєкту
№ 3
15-18 травня подано заявки на участь у конкурсі до Міністерства освіти і науки України та Державного агентства з розвитку освіти Латвійської Республіки
№ 4
17 грудня 2020 р. проєкт затверджено протоколом засідання українсько-латвійської Спільної Комісії з науково-технологічного співробітництва
Мета проєкту
Ми бажаємо створити додатковий інструмент для ресурсів, що надаються нашими установами, і закласти теоретичні та методологічні основи для майбутньої розробки нових інструментів і функціональних можливостей для LNDL і NRATU.
Прототип інструменту аналізу і визначення подібності текстів сприятиме розвитку науково-дослідних і прикладних досліджень у майбутньому. Дані методи вже знаходяться на передньому краї у таких областях досліджень, як комп'ютерна лінгвістика (в т.ч. штучний інтелект, машинне навчання, технології обробки мови), літературознавство, комунікаційні науки (журналістика, політична комунікація), філософія, а також науки про здоров'я. Послуги з визначення подібності користуються попитом у закладах вищої освіти та академічних видавничих спільнотах. На відміну від юридично обмежених і комерціалізованих сервісів, що виконують конкретні завдання для наукових кіл, впровадження інструменту подібності тексту в національних текстових архівах надає значно ширший доступ до сфери використання як з точки зору структури контенту, так і збільшення масштабу дослідницьких цілей.
Завдання проєкту
Вивчити існуючі алгоритми і методи визначення подібності та виявити найбільш ефективні підходи для аналізу тексту та подібності у наявних текстових масивах (LNDL і NRATU). Це стане теоретичною і методологічною основою для подальшого тестування обраних методів, а також сприятиме накопиченню знань у сфері визначення подібності.
Розробити середовище для тестування (спільне для LNDL і NRATU), що дозволяє проводити експерименти в рамках даного проєкту і стане прототипом для подальшої розробки інструментів аналізу текстів, які будуть використовуватися й після завершення виконання даного проєкту
Застосувати прототипи інструментів і методи, а також протестувати обґрунтованість обраних підходів на 3-4 прикладах, побудованих на темах, що відносяться до соціальних і гуманітарних тематик. Це дозволить порівняти методи, які розглядатимуться (включаючи порівняння зручності використання аналогічних методів на різних мовах), а також зробити внесок у дослідження сфери цифрових гуманітарних і соціальних наук
Інформувати та залучати студентів соціальних та гуманітарних спеціальностей, членів наукової спільноти, заохочувати їх до застосовування методів цифрового аналізу і визначення подібності у текстах власних досліджень, а також по-новому відкривати для себе суть роботи LNDL і NRATU. Сприяти створенню мереж серед ентузіастів цифрових гуманітарних і соціальних наук, фахівців з інформатики, бібліотекарів
Проєкт реалізується за підтримки Міністерства освіти і науки України
Підставою для виконання проєкту є Угода між Урядом України та Урядом Латвійської Республіки
про співробітництво в галузі освіти, науки та культури від 21.11.1995