Мета проєкту - сприяння впровадженню нових сервісів для текстового аналізу в Латвійській Національній Цифровій Бібліотеці (LNDL) та Національному репозитарії академічних текстів України (NRATU).
Основна увага в даному проєкті приділяється методам визначення подібності текстів, які відповідають різним напрямкам цифрових досліджень для відстеження цитування, плагіату або поширення інформації та ідей.
У ході виконання проєкту ми:
по-перше, оцінюємо і підбираємо відповідні існуючі математичні алгоритми і методики для визначення ступеня подібності у текстах;
по-друге, розробляємо відповідні робочі процеси та мікросервіси для проведення експериментів і досліджень;
по-третє, визначаємо тематику досліджень з постановкою чітких питань для порівняння зручності використання та ефективності обраних алгоритмів і підходів.
Результати теоретичних досліджень і тестувань дадуть більш точне розуміння специфіки порівняння тексту, а також можливостей автоматичного порівняння тематичних напрямків, що дозволить нам якісно поліпшити основні сервіси LNDL і NRATU в майбутньому.
Латвійська цифрова бібліотка (ЛЦБ) та Національний репозитарій академічних текстів (НРАТ) представляють собою великі масиви цифрових та оцифрованих текстів. Національний репозитарій наразі містить 255 тис. найменувань повних академічних текстів, – дисертації, автореферати, звіти про наукові дослідження (фундаментальні та прикладні), що становить біля 5 млн сторінок. Латвійська цифрова бібліотка зберігає 6,5 млн. сторінок оцифрованого тексту, які включають в себе тексти, опубліковані в книгах і періодичних виданнях, починаючи з XVII століття і до наших днів. Ці цифри постійно зростають. Це становить значний ресурс для прикладних досліджень за обраною тематикою.
Сервісами ЛЦБ і НРАТ активно користуються академічні та наукові спільноти для навчальних і дослідницьких цілей, проте використовуються лише базові функції, такі як пошук за ключовими словами або перегляд сторінок, в той час як досягнення у сфері цифрових гуманітарних і соціальних наук дозволяють студентам і дослідникам аналізувати зміст цифрових матеріалів за допомогою більш складних інструментів. Наприклад, інструменти інтелектуального аналізу тексту сприятимуть вивченню змісту великого масиву книг одночасно та виявленню ключових ознак, які неможливо визначити під час звичайного процесу читання (наприклад, відслідковувати лексичні зміни в мові, стежити за розвитком ідей у часі тощо).
Алгоритми для визначення подібності розробляються й удосконалюються впродовж декількох десятиліть, але вони все ще майже не застосовуються у некомерційних цифрових інфраструктурах і сховищах академічної та культурної спадщини. Комерційні рішення, такі як програмне забезпечення для виявлення плагіату, часто вузько спеціалізовані й не можуть задовольнити різні потреби дослідників, зацікавлених, наприклад, у поширенні новинних матеріалів, повторному використанні рядків в поезії або відстеженні поширення висловлювань науковців та філософів.
Отже, технології розроблені, але вони недостатньо використовуються для роботи з академічною та культурною спадщиною не лише в Латвії та Україні, а й в усьому світі.
Інтеграція інструментів цифрового аналізу тексту до двох крупних цифрових сховищ, які знаходяться на важливому національному рівні у своїх країнах.
Сприяння розвитку цифрових гуманітарних і соціальних наук в Латвії та Україні, які дещо відстають від ряду інших країн Європи. Використання моделі, яка наразі рідко застосовується для проєктів у сфері цифрових гуманітарних досліджень у нашому регіоні: співпраця між трьома сторонами - дослідником зі сфери гуманітарних (або соціальних) наук, програмістом, цифровою бібліотекою (або сховищем).
Включення до сфери аналізу цифрового тексту засобів порівняння, що надасть зручності використання та ефективності для ресурсів на двох різних мовах - латвійській та українській.
Створення умов більш ефективного та точного виявлення вмісту цифрової бібліотеки та сховища.
Залучення студентів і молодих дослідників суспільних і гуманітарних наук, а також ентузіастів цифрових гуманітарних наук до практичного застосування розроблених методів, створенню і розвитку локальної мережі для подальшого тестування, розроблення і поширення цифрової практики. Підвищення компетентності у спільноті бібліотекарів з питань методики та потенціалу створення нових інструментів у середовищі цифрових масивів інформації.
Поширення результатів проведених досліджень і розроблених інструментів.
Створення міцної основи для продовження співпраці та обміну знаннями між організаціями-партнерами у подальшій розробці методів, інструментів та послуг.
Що нами зроблено