На данной странице доступен для скачивания "Корпус биографических текстов". Корпус был составлен для решения задачи автоматического поиска фрагментов, содержащих биографическую информацию, в тексте на естественном языке. Корпус собран на текстов русскоязычной Википедии.
При использовании корпуса в научных работах, пожалуйста, процитируйте эту публикацию:
В корпус вошли 200 биографических статей, сбор которых осуществлялся в 2018 году.
Предобработка и выбор текстов для корпуса проводились следующим образом:
сбор текстов осуществлялся в автоматическом режиме с помощью открытых библиотек языка Python;
были удалены короткие тексты, содержащие только годы жизни человека и список его должностей;
из текстов были удалены все разделы, кроме раздела "Биография". Это связано с тем, что биографические статьи в "Википедии" содержат, как правило, перечни наград, научных трудов, произведений и прочие разделы, неудобные для проведения разметки.
Корпус включает в себя биографии личностей, чья основная деятельность связана с одним из следующих направлений:
военные и работники силовых структур;
деятели культуры и искусства;
деятели науки, техники и образования;
политики и общественные деятели;
предприниматели и менеджеры;
религиозные деятели.
Размеченный корпус представляет собой текстовую коллекцию, разбитую на предложения. Каждое предложение относится к одному или двум тематическим классам: не биографический факт (none); личные события (personal_events); профессиональные события (professional_events); рождение (birth); смерть (death); национальность (nationality); информация о родительской семье (parenting)); членство (affiliation); образование (education); семья (family); место жительства, пребывания (residence); род занятий, должность (occupation); прочие биографические факты (other).
Корпус биографических текстов состоит из следующих элементов:
тексты, представленные в формате .xml (каждое предложение включает в себя атрибуты "text" и "type" (тематический класс), при наличии -- "additional_type" (дополнительный тематический класс);
файл с описанием корпуса в формате .csv, в котором содержится информация о текстах (имя персоны, годы жизни, направление основной деятельности).
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-37-00272 «Автоматизированное извлечение биографических фактов из текстов на естественном языке».
Контакты: anna_glazkova@yahoo.com