Text Corpora for Studying a Grammatical Auxiliarity: Classification of Grammatical Classes and Subclasses

Additional information

Author Information:

Illya G. Danyliuk , Candidate of Philology, Associate Professor at Department of Ukrainian Language and Applied Linguistics in Donetsk National University Correspondence: i.g.danyluk@gmail.com

Citation:

Danyliuk, I. Text Corpora for Studying a Grammatical Auxiliarity: Classification of Grammatical Classes and Subclasses [Text] // Linguistic Studies : collection of scientific papers / Donetsk National University ; Ed. by A. P. Zahnitko. – Donetsk : DonNU, 2013. – Vol. 27. – Pp. 221-229. – ISBN 966-7277-88-7

Publication History:

Volume first published online: April 10, 2013

Article received: 21 August 2012, accepted: December 28, 2012 and first published online: April 10, 2013

Annotation.

The article, which is the second part in a series devoted to the description of the theoretical and practical principles of creating the text corpus for the study of syntactic grammar within the scientific theme of Department of Ukrainian Language and Applied Linguistics in Donetsk National University, describes grammatical classes and subclasses classification embedded in the corpus. Principles of tags, their complete system for the first version of the corpus are given.

Keywords: text corpus, parts of speech, grammatical class, grammatical subclass, tag.

© The Editorial Council and Editorial Board of Linguistic Studies Linguistic Studies

Volume 27, 2013, pp. 221-229

Text Corpora for Studying a Grammatical Auxiliarity: Classification of Grammatical Classes and Subclasses

Illya Danyliuk

Article first published online: April 10, 2013

Abstract.

TEXT CORPORA FOR STUDYING A GRAMMATICAL AUXILIARITY: CLASSIFICATION OF GRAMMATICAL CLASSES AND SUBCLASSES

Illya Danyliuk

Department of Ukrainian Language and Applied Linguistics, Donetsk National University, Donetsk, Ukraine

Available 21 August 2012.

Abstract

Relevance

Relevance of this article is due to the fact that today after the term of linguistic or lingual text corpus we understand great, electronically submitted, unified, structured, marked up, philology competent array of language data, designed to solve specific linguistic tasks [Zaharov 2005: 3]. Different types of markups are used in corpus, including lingual, which are always the hardest and the most important. Coprus manager based on NoSketch Engine [Rychlý, Smrž 2004] is provided by a form of presentation markups in the form of tags. The presented article is a continuation of the started cycle of publications dedicated to the description of the theoretical and practical principles of creating the text corpuses for the study of grammar use within the scientific theme of the Department of the Ukrainian language and Applied Linguistics of DonNU (first publication [Danyluk 2013]).

Purpose

Here author aims to reveal the classification of parts of speech and isolated within them categories, or in other words, the typology of grammatical classes and subclasses for corpus units.

Tasks

Specific tasks are: 1) a description of the general system of tagging in the corpus; 2) representation of grammatical classes and units of non-grammatical nature; 3) guidance of classification of subcategories within each of the selected classes.

Conclusion

So marked 12 classes of units in the text corpus for the study of grammar use are described by system of tags, which is characterized by the use of unique characters for each position, and subclasses such as gender, number, case, etc., are attached to a certain place in the structure of tag.

Perspective

In continuation of a series of publications, author intend to describe in detail a metalingual layout, namely genre classification of text included in the corpus, the mechanism of automatic morphological analysis and algorithm of constructing a vertical file for corpus manager Manatee.

Research highlights

► The article, which is the second part in a series devoted to the description of the theoretical and practical principles of creating the text corpus for the study of syntactic grammar within the scientific theme of Department of Ukrainian Language and Applied Linguistics in Donetsk National University, describes grammatical classes and subclasses classification embedded in the corpus. ► Principles of tags, their complete system for the first version of the corpus are given.

Keywords: text corpus, parts of speech, grammatical class, grammatical subclass, tag.

References

Bezpoyasko, O. K. (1993). Hramatyka ukrayins'koyi movy. Morfolohiya. K.: Lybid'.

Vykhovanets', I. R. (2004). Teoretychna morfolohiya ukrayins'koyi movy: Akadem. hramatyka ukr. movy. K.: Univ. vyd-vo "Pul'sary".

Danylyuk, I. H. (2013). Korpus tekstiv dlya vyvchennya hramatychnoyi sluzhbovosti. Linhvistychni studiyi: Zb. nauk. prats'. Vypusk 26, 225-230. Donets'k: DonNU.

Danylyuk, I. H. (2010). Prykladna morfolohiya: Navchal'nyy posibnyk. Donets'k: DonNU.

Danylyuk, I. H. (2006). Synkretyzm u systemi chastyn movy. Avtoref. dys. … k. filol. n. Donets'k.

Zaharov, V. P. (2005). Korpusnaja lingvistik. SPb.

Zahnitko, A. P. & Karatayeva, H. O. (2012). Slovnyk chastok: materialy i statti. Donets'k: DonNU.

Zahnitko, A. P. & Sytar, H. V. & Danylyuk, I. H. & Shchukina, I. A. (2007). Slovnyk ukrayins'kykh pryymennykiv. Suchasna ukrayins'ka mova. Donets'k: TOV VKF "BAO".

Kurs suchasnoyi ukrayins'koyi literaturnoyi movy, (1951). Kurs suchasnoyi ukrayins'koyi literaturnoyi movy. K.: Rad. shk.

Kucherenko, I. K. (1961). Teoretychni pytannya hramatyky ukrayins'koyi movy. Morfolohiya. K.: Kyyiv.

Leonova, M. V. (1983). Suchasna ukrayins'ka literaturna mova. Morfolohiya. K.: Vyshcha shk.

Suchasna ukrayins'ka literaturna mova, (1969). Suchasna ukrayins'ka literaturna mova. Morfolohiya. K.: Nauk. dumka.

Rychlý, Pavel & Smrž, Pavel. (2004). Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs. SPb: Saint-Petersburg State University Press.

Correspondence: i.g.danyluk@gmail.com

Vitae

Illya G. Danyluk, Candidate of Philology, Associate Professor at Department of Ukrainian Language and Applied Linguistics in Donetsk National University. His research areas include applied linguistics and grammar of Ukrainian language.

Article.

РОЗДІЛ ІХ. ПРИКЛАДНА ЛІНГВІСТИКА: НАПРЯМИ Й АСПЕКТИ ДОСЛІДЖЕННЯ

Ілля Данилюк

УДК 81’33=161.2

КОРПУС ТЕКСТІВ ДЛЯ ВИВЧЕННЯ ГРАМАТИЧНОЇ СЛУЖБОВОСТІ:

КЛАСИФІКАЦІЯ ГРАМАТИЧНИХ КЛАСІВ І ПІДКЛАСІВ

У статті, яка є другою публікацією у циклі, присвяченому опису теоретичних і практичних засад створення корпусу текстів для вивчення граматичної службовості у межах наукової теми кафедри української мови і прикладної лінгвістики ДонНУ, описано закладену в корпус класифікацію граматичних класів і підкласів. Подано принцип побудови тегів, наведено їх повну систему для першої версії корпусу.

Ключові слова: корпус текстів, частини мови, граматичний клас, граматичний підклас, тег.

Пропонована стаття є продовженням розпочатого циклу публікацій, присвяченого опису теоретичних і практичних засад створення корпусу текстів для вивчення граматичної службовості у межах наукової теми кафедри української мови і прикладної лінгвістики ДонНУ (перша публікація [Данилюк 2013]). У ній ми ставимо собі за мету розкрити класифікацію частин мови й виділених у їхніх межах категорій, або, іншими словами, типологію граматичних класів і підкласів для одиниць корпусу. Конкретними завданнями є: 1) опис загальної системи тегування у корпусі; 2) подання граматичних класів й одиниць неграматичної природи; 3) наведення класифікації підкатегорій у межах кожного з виділених класів.

Нагадаємо, що під терміном лінгвістичний, або мовний, корпус текстів сьогодні розуміють великий, представлений в електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений для вирішення конкретних лінгвістичних завдань [Захаров 2005: 3]. У корпусі використовуються різні види розмітки, з яких лінгвістична є завжди найскладнішою і найважливішою. Корпусний менеджер на основі NoSketch Engine [Rychlý, Smrž 2004] передбачає форма представлення розмітки у вигляді тегів. Наведемо повторно приклад тегу і його розшифрування для слова конференцією – тег Izzooin1m (сх. 1).

Схема 1. Розшифрування тегу для словоформи «конференцією»

Нагадаємо структуру тегу в корпусі: на першій позиції позначка класу слова, далі позначки підкласів. Класифікація класів має такий вигляд (табл. 1):

Таблиця 1. Класи слів у КТ граматичної службовості

Перші десять класів – традиційно виділювані частини мови. До проблеми їх класифікації в українській мові ми зверталися неодноразово [Данилюк 2006; Данилюк 2010], остання, так звана «шкільна», була обрана з міркувань сумісності корпусу з низкою вже здійснених, поточних і майбутніх кафедральних досліджень. Два останні класи включили той загал слів, які не входять до десятки основних класів. Літера в дужках в українських термінах – підстава для вибору символу на позначення класу в системі тегів. Виділення підкласів спирається на низку класичних [Безпояско 1993; Вихованець 2004; Курс сучасної української літературної мови 1951; Кучеренко 1961, 1964; Леонова 1983; Сучасна українська літературна мова 1969] і новітніх [Загнітко, Каратаєва 2012; Загнітко, Ситар та ін. 2007] досліджень.

Дотримуючись традиційного принципу, що всі позначки є односимвольними, ми, тим не менше, вирішили вперше, наскільки нам відомо, використати підхід, за якого, по-перше, на кожній позиції в системі тегів підкласів (першій, другій, третій і далі) для всіх класів слів використовується унікальний символ (іншими словами, наприклад, на другій позиції для певного підкласу іменника, числівника, частки, абревіатури й усіх інших класів буде унікальний символ, а не повторюваний, як це спостерігаємо в інших системах). По-друге, порядок підкласів є не довільним, а таким, що кожний підклас, якщо він виділяється в різних класів, займає одну й ту ж позицію (наприклад, підклас походження для частки, сполучника, прийменника й вигуку – на 2-ій позиції, підклас рід для іменника, дієслова, прикметника, числівника, займенника, абревіатури – на 3-ій позиції тощо). Перевагою такого підходу ми бачимо суттєве спрощення пошукових запитів – по-перше, не треба додатково задавати символ класу, якщо досліджується його унікальний підклас (наприклад, відсполучниковий тип частки), а по-друге, можна легко будувати запити на аналіз окремого підкласу безвідносно до класу слова (наприклад, виділити усі словоформи родового відмінка усіх граматичних класів). У цьому новизна системи тегів корпусу службовості.

Система тегів для класу іменника (I) має такий вигляд (табл. 2):

Таблиця 2. Система тегів для класу іменника

У корпусі закладено таку систему тегів для класу дієслова (D) (табл. 3):

Таблиця 3. Система тегів для класу дієслова

Система тегів для класу прикметника (K) має такий вигляд (табл. 4):

Таблиця 4. Система тегів для класу прикметника

Система тегів для класу прислівника (S) має такий вигляд (табл. 5):

Таблиця 5. Система тегів для класу прислівника

Система тегів для класу числівника (С) має такий вигляд (табл. 6):

Таблиця 6. Система тегів для класу числівника

Система тегів для класу займенника (Z) має такий вигляд (табл. 7):

Таблиця 7. Система тегів для класу займенника

Система тегів для класу сполучника (P) має такий вигляд (табл. 8):

Таблиця 8. Система тегів для класу сполучника

Система тегів для класу прийменника (J) має такий вигляд (табл. 9):

Таблиця 9. Система тегів для класу прийменика

Система тегів для класу вигуку (W) має такий вигляд (табл. 10):

Таблиця 10. Система тегів для класу вигуку

Система тегів для класу абревіатури (A) має такий вигляд (табл. 11):

Таблиця 11. Система тегів для класу абревіатури

Система тегів для класу R (решта) має такий вигляд (табл. 12):

Таблиця 12. Система тегів для класу R (решта)

Система тегів для класу частка було наведено у [Данилюк 2013].

Отже, виділені 12 класів одиниць у корпусі текстів для вивчення граматичної службовості описані системою тегів, що характеризується використанням унікальних символів для кожної позиції, а підкласи, як то рід, число, відмінок тощо, закріплені за певним місцем у структурі тегу. У продовженні серії публікацій ми маємо намір детально описати металінгвістичну розмітку, а саме жанрову класифікацію текстів, включених до корпусу, механізм автоматичного морфологічного аналізу й алгоритм побудови вертикального файлу для корпусного менеджера Manatee.

References.

Література

Безпояско 1993: Безпояско, О.К. Граматика української мови. Морфологія : Підручник [Текст] / О. К. Безпояско, К. Г. Городенська, В. М. Русанівський. – К. : Либідь, 1993. – 336 с.

Вихованець 2004: Вихованець, І.Р. Теоретична морфологія української мови : Академ. граматика укр. мови [Текст] / І. Р. Вихованець, К. Г. Городенська / За ред. І. Вихованця. – К. : Унів. вид-во «Пульсари», 2004. – 400 с.

Данилюк 2013: Данилюк, І.Г. Корпус текстів для вивчення граматичної службовості [Текст] // Лінгвістичні студії: Зб. наук. праць. Випуск 26 / Укл. : Анатолій Загнітко (наук. ред.) та ін. – Донецьк : ДонНУ, 2013. – С. 225-230.

Данилюк 2010: Данилюк, І.Г. Прикладна морфологія : Навчальний посібник [Текст] / І. Г. Данилюк. – Донецьк : ДонНУ, 2010. – 165 с. – ISBN 978-966-639-441-8

Данилюк 2006: Данилюк, І.Г. Синкретизм у системі частин мови [Текст] : автореф. дис. … к. філол. н. – Донецьк, 2006. – 20 с.

Захаров 2005: Захаров, В.П. Корпусная лингвистика : Учебно-метод. пособие [Текст] / В. П. Захаров. – СПб., 2005. – 48 с.

Загнітко, Каратаєва 2012: Загнітко, А.П., Каратаєва Г.О. Словник часток : матеріали і статті [Текст] / Анатолій Загнітко, Анна Каратаєва ; Донец. нац. ун-т. – Донецьк : ДонНУ, 2012. – 381 с.

Загнітко, Ситар, Данилюк, Щукіна 2007: Загнітко, А.П., Ситар, Г.В., Данилюк, І.Г., Щукіна, І.А. Словник українських прийменників. Сучасна українська мова [Текст]. – Донецьк : ТОВ ВКФ «БАО», 2007. – 416 с.

Курс сучасної української літературної мови 1951: Курс сучасної української літературної мови [Текст] / за ред. Л. А. Булаховського : В 2 т. – К. : Рад. шк., 1951 ; Т.1. – 519 с. ; Т.2. – 407 с.

Кучеренко 1961: Кучеренко, І.К. Теоретичні питання граматики української мови : Морфологія [Текст] / І. К. Кучеренко : В 2 ч. – К. : Вид-во Київ. ун-ту. 1961. – Ч.1. – 172 с. ; 1964. – Ч.2. – 159 с.

Леонова 1983: Леонова, М.В. Сучасна українська літературна мова : Морфологія [Текст] / М. В. Леонова. – К. : Вища шк., 1983. – 264 с.

Сучасна українська літературна мова 1969: Сучасна українська літературна мова : Морфологія [Текст] / За заг. ред. І. К.Білодіда. – К. : Наук. думка, 1969. – 583 с.

Rychlý, Pavel, Smrž, Pavel 2004: Rychlý, Pavel, Smrž, Pavel. Manatee, Bonito and Word Sketches for Czech. In Proceedings of the Second International Conference on Corpus Linguisitcs [Текст]. – Saint-Petersburg : Saint-Petersburg State University Press, 2004. – Pp. 124-132. – ISBN 5-288-03531-8.

В статье, которая является второй публикацией, посвященной описанию теоретических и практических основ создания корпусу текстов для изучения грамматической служебности в рамках научной темы кафедры украинского языка и прикладной лингвистики ДонНУ, описана заложенная в корпус классификация грамматических классов и подклассов. Подан принцип построения тегов, приведена их полная система для первой версии корпуса.

Ключевые слова: корпус текстов, части речи, грамматический класс, грамматический подкласс, тег.

The article, which is the second part in a series devoted to the description of the theoretical and practical principles of creating the text corpus for the study of syntactic grammar within the scientific theme of Department of Ukrainian Language and Applied Linguistics in Donetsk National University, describes grammatical classes and subclasses classification embedded in the corpus. Principles of tags, their complete system for the first version of the corpus are given.

Keywords: text corpus, parts of speech, grammatical class, grammatical subclass, tag.

Надійшла до редакції 21 серпня 2012 року.