Статистичний аналіз цілісних словосполучень: на матеріалі Українського національного лінгвістичного корпусу

Додаткова інформація

Інформація про автора:


Ситар Ганна Василівна − кандидат філологічних наук, доцент, доцент кафедри загального та прикладного мовознавства і слов’янської філології Донецького національного університету імені Василя Стуса (м. Вінниця, Україна).

Коло наукових зацікавлень: синтаксис, семантика, прагматика, конструкційна граматика, прикладна лінгвістика.

Листування: h.v.sytar@donnu.edu.ua

Citation:

Sytar, H. Statistical Analysis of Indivisible Word-Combinations: on Material of Ukrainian National Linguistic Corpus [Text] // Linhvistychni Studiyi / Linguistic Studies : collection of scientific papers / Vasyl' Stus Donetsk National University; Ed. by Anatoliy Zahnitko. Vinnytsia : Vasyl' Stus DonNU, 2018. Vol. 36. Pp. 148-157. ISBN 966-7277-88-7

DOI: http://dx.doi.org/10.31558/1815-3070.2018.36.24

Історія публікації:

Випуск вперше опубліковано в Інтернеті: 15 грудня 2018 року

Стаття отримана: 23 листопада 2018 року та вперше опублікована в Інтернеті: 15 грудня 2018 року

Анотація.

Стаття продовжує цикл публікацій, присвячених статистичному аналізу стійких одиниць української мови. За даними Українського національного лінгвістичного корпусу визначено ступінь невипадковості поєднання словоформ дво-, три- і чотирикомпонентних цілісних словосполучень української мови шляхом обчислення показника асоціації mutual information (МІ).

Для всіх обстежених цілісних одиниць властива невипадковість поєднання словоформ (результати МІ перебувають у діапазоні від 8,64 до 44,63). У межах одного корпусу текстів величина МІ залежить від таких чинників, як абсолютна частота конструкції, абсолютна частота її компонентів, кількість компонентів і тип цілісного словосполучення.

Ключові слова: показник асоціації, фразеологічна одиниця, mutual information, статистика, цілісне словосполучення, українська мова.




Statistical Analysis of Indivisible Word-combinations:

on Material of Ukrainian National Linguistic Corpus

Hanna Sytar

Department of General and Applied Linguistics and Slavonic Philology,

Vasyl’ Stus Donetsk National University, Vinnytsia, Ukraine

Abstract

Background: The article is devoted to the statistical analysis of indivisible word-combinations in the Ukrainian. The research was performed on the material of the Ukrainian National Linguistic Corpгs of the Ukrainian Language and Information Fund of the National Academy of Sciences of Ukraine. The object of analysis is 56 homogeneous word-combinations with different components, different morphological content and non-identical semantic-syntactic relations. Among them, there are 20 two-component units, 20 three-component, and 16 – four-component ones.

Purpose: The purpose of the research is to establish the degree of indivisible word-combinations components sequence non-randomness in Ukrainian by calculating the association measure mutual information (MI).

Results: the frequency data for word-combination from the Ukrainian National Linguistic Corpus is received, the MI for multicomponent units is computed, the obtained results are analyzed, the correlation between the MI value and the type of indivisible word-combinations is revealed.

For the analyzed indivisible word-combinations, the MI association measure is in the range of 8.64 (Ukr. мав працювати) to 44.63 (Ukr. майстер спорту міжнародного класу), that means that the components combination in all these units is non-randomness. Within a single text corpus, the MI value depends on such factors as the absolute construction frequency, the absolute frequency of its components, the number of components and the type of indivisible word-combinations.

Discussion: MI results for indivisible word-combinations are predicted to be lower than other phraseological units due to the smaller number of components in their composition. It is important to find out that the predefined MI value depends on the type of indivisible word-combinations. The next stage of the study involves performing a statistical analysis for other types of phraseological units, in particular, composed prepositional equivalents.

Keywords: association measure, phraseological units, mutual information, indivisible word-combination, statistics, the Ukrainian language.

Vitae

Hanna Sytar is PhD of Philology, Associate Professor, Associate Professor of Department of General and Applied Linguistics and Slavonic Philology at Donetsk National University named after Vasyl’ Stus. Her areas of research interests include syntax, semantics, pragmatics, construction grammar, applied linguistics.

Correspondence: h.v.sytar@donnu.edu.ua

© Редакція Міжнародного збірника наукових праць «Лінгвістичні студії»

Лінгвістчині студії

Випуск 36, 2018, с. 158-164

Статистичний аналіз цілісних словосполучень: на матеріалі Українського національного лінгвістичного корпусу

Ситар Ганна

Стаття вперше опублікована в Інтернеті: 15 грудня 2018 року

Стаття.

Ганна Ситар

DOI 10.31558/1815-3070.2018.36.24

УДК 81'373.7:81'32

СТАТИСТИЧНИЙ АНАЛІЗ ЦІЛІСНИХ СЛОВОСПОЛУЧЕНЬ: НА МАТЕРІАЛІ УКРАЇНСЬКОГО НАЦІОНАЛЬНОГО ЛІНГВІСТИЧНОГО КОРПУСУ[1]

Стаття продовжує цикл публікацій, присвячених статистичному аналізу стійких одиниць української мови. За даними Українського національного лінгвістичного корпусу визначено ступінь невипадковості поєднання словоформ дво-, три- і чотирикомпонентних цілісних словосполучень української мови шляхом обчислення показника асоціації mutual information (МІ).

Для всіх обстежених цілісних одиниць властива невипадковість поєднання словоформ (результати МІ перебувають у діапазоні від 8,64 до 44,63). У межах одного корпусу текстів величина МІ залежить від таких чинників, як абсолютна частота конструкції, абсолютна частота її компонентів, кількість компонентів і тип цілісного словосполучення.

Ключові слова: показник асоціації, фразеологічна одиниця, mutual information, статистика, цілісне словосполучення, українська мова.

Постановка проблеми, актуальність дослідження. Сучасна лінгвістика визначає статистичні дослідження як виключно корпуснобазовані, тобто вчені вважають, що вірогідні статистичні результати можна одержати тільки на підставі аналізу репрезентативного корпусу текстів. Статистичний аналіз стійких одиниць різних типів, виконаний на корпусному матеріалі, є важливим завданням лінгвістичної статистики, здатним дати чіткі кількісні критерії зарахування мовних одиниць до класу стійких, що можуть бути використані для їх автоматичної ідентифікації в корпусі текстів. Процедуру такого аналізу на матеріалі синтаксичних фразеологізмів української мови викладено у працях (Sytar, “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv”; Sytar, “Statystychnyi analiz frazeolohizovanykh rechen…”; Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”).

Обчислення показників (індексів) асоціації (англ. association measures, measures of association) як метод визначення випадковості / невипадковості поєднання певних одиниць може бути застосований для різних типів конструкцій. Пропонована стаття присвячена статистичному аналізу цілісних словосполучень.

У трактуванні словосполучення маємо опертям традиційний підхід, згідно з яким його визначають як непредикативну синтаксичну одиницю, «компонентами якої є слово та форма слова або кілька форм слів, з’єднаних між собою підрядним синтаксичним зв’язком» (Zahnitko, “Slovnyk suchasnoyi linhvistyky: ponyattya i terminy”, 1040).

У розгалуженій класифікації словосполучень цілісні[2] одиниці посідають особливе місце й охоплюють кілька структурних і семантичних різновидів. Вони становлять один із трьох типів словосполучень, які виділяють за ступенем злиття компонентів. За цією ознакою з-поміж словосполучень Анатолій Загнітко розмежовує:

1) вільні словосполучення;

2) синтаксично зв’язані словосполучення;

3) фразеологічно зв’язані словосполучення (Zahnitko, “Teoretychna hramatyka ukrayins'koyi movy: Syntaksys”, 63).

На думку мовознавця, визначальними ознаками синтаксично зв’язаних (або нечленованих, неподільних, цілісних) словосполучень є такі: виконання ролі одного члена речення, наявність структури і граматичного значення, пов’язаність компонентів одним з різновидів підрядного зв’язку, наприклад: три роки, один із нас, дівчина з гарними очима (Zahnitko, “Teoretychna hramatyka ukrayins'koyi movy: Syntaksys”, 63-64).

Оксана Максим’юк звертає увагу на інформативну недостатність, синсемантичність стрижневих слів, що входять до складу цілісних словосполучень, а також на комплетивні (доповнювальні) відношення як типові для словосполучень цього різновиду, наприклад: зграя лебедів, тарілка супу (Maksymiuk, 8 і далі). За нашими спостереженнями, крім комплетивних відношень, цілісним словосполученням властиві також атрибутивні відношення, наприклад: чоловік високого зросту, дівчина з карими очима, суддя міжнародної категорії.

Класифікація цілісних словосполучень на сьогодні залишається дискусійною проблемою синтаксису. У цьому дослідженні враховуємо 10 типів цілісних словосполучень, виділених Мариною Балко:

1) словосполучення з кількісним значенням: два хлопці, кілька дівчат;

2) словосполучення зі значенням вибірковості: дехто із студентів, четверо з них;

3) словосполучення зі значенням сумісності: Микола з другом, діти з учителем;

4) словосполучення характеризувальної семантики: людина інтелектуальної праці, чоловік високого зросту;

5) словосполучення фонової семантики: тим часом, зимового вечора;

6) словосполучення якісної і станової семантики: надзвичайна подія, добрий господар;

7) словосполучення з обмежувальною семантикою: у період з 2014 року по 2018 рік; дорога з міста до села;

8) сполуки фазових, модальних дієслів, слів категорії стану з інфінітивом (складені присудки): мав працювати, перестати ходити;

9) словосполучення із семантикою невизначеності: щось біле, щось радикальне;

10) метафоричні й перифрастичні конструкції: сурма великого горя, геній українського народу (Balko, 164-168).

Матеріал і методи дослідження. Об’єктом статистичного аналізу стали 56 цілісних словосполучень різних структурних (за кількістю компонентів, їх частиномовним вираженням) і семантичних типів. Серед них 20 двокомпонентних одиниць, 20 – трикомпонентних і 16 – чотирикомпонентних. Вірогідність одержаних результатів забезпечено виконанням обчислень на матеріалі значного за обсягом й індексованого корпусу текстів − Українського національного лінгвістичного корпусу (далі УНЛК) Українського мовно-інформаційного фонду НАН України. Загальна кількість слововживань у корпусі в період здійснення підрахунків становила 189200000 одиниць.

У статистиці відомим є індекс асоціації mutual information (англ. взаємна, спільна інформація, далі МІ). За допомогою МІ визначають невипадковість (залежність) послідовності певних явищ або подій, у нашому випадку − словоформ у корпусі текстів (Fano). Вперше в лінгвістичних дослідженнях його застосували Кеннет Ворд Чарч (Kenneth Ward Church) та Патрік Генкс (Patrick Hanks) для виявлення залежності поєднання двох слів в англійських корпусах текстів (Church, Hanks).

Через багатокомпонентність значної частини цілісних словосполучень використовуємо формулу (1), наведену у працях (Petrovic, Snajder, Basic, Kolar: 323; Yagunova, Pivovarova: 586) і призначену для конструкцій з будь-якою кількістю компонентів:

де MI – коефіцієнт mutual information;

і – кількість компонентів конструкції;

с1 – перша лексична одиниця;

с2 – друга лексична одиниця;

сіі-а лексична одиниця;

f(c1,c2,…сі) – абсолютна частота вживання конструкції c1, c2, … ,сі в корпусі (з урахуванням порядку одиниць усередині конструкції);

f(c1) – абсолютна частота c1 в корпусі;

f(c2) – абсолютна частота c2 в корпусі;

f(cі) – абсолютна частота cі в корпусі;

N – загальна кількість слововживань у корпусі;

log2 – логарифм числа за основою 2.

Мета пропонованого дослідження – установити ступінь невипадковості поєднання компонентів цілісних словосполучень шляхом обчислення показника асоціації МІ. Для досягнення поставленої мети розв’язано такі завдання:

1) укладено робочий варіант реєстру цілісних словосполучень, що охоплює одиниці з різною кількістю компонентів, різним морфологічним наповненням та нетотожними семантико-синтаксичними відношеннями;

2) з УНЛК отримано частотні дані для цілісних словосполучень;

3) виконано обчислення за формулою МІ для багатокомпонентних одиниць;

4) проаналізовано отримані результати та виявлено взаємозв’язки величини МІ й типу цілісного словосполучення.

Для коректного встановлення абсолютної частоти конструкції та абсолютної частоти окремих словоформ, що входять до її складу, в пошуковій формі УНЛК було задано визначений порядок словоформ та передбачено пошук словоформи, а не слова з урахуванням його парадигми.

Наведемо приклади виконаних обчислень. Для визначення ступеня невипадковості поєднання складників цілісного словосполучення другого дня з УНЛК було отримано такі кількісні дані: абсолютна частота конструкції становить 723, абсолютна частота словоформи другого − 3656; дня − 3623. Підставляючи ці дані до формули (1), отримуємо:

Коефіцієнт МІ обраховували з точністю до двох знаків після коми. Отримані результати МІ для двокомпонентних цілісних словосполучень подано в таблиці 1.

Як видно з таблиці 1, коефіцієнт МІ для двокомпонентних цілісних словосполучень становить від 8,64 (мав працювати) до 14,55 (шматок хліба). При цьому показово, що різні типи цілісних словосполучень мають нетотожні результати, зокрема, низький індекс МІ мають складені присудки, високий словосполучення фонової (часової) семантики та конструкції з партитивним значенням (останній тип цілісних словосполучень виділяє Оксана Максим’юк (Maksymiuk, 8). Важливим моментом також вважаємо вищі абсолютні частоти як цілісних словосполучень загалом, так і їх складників, порівняно з відповідними частотами лексичних фразеологізмів, прислів’їв та приказок (пор. результати, наведені у працях (Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”; Sytar, “Statystychnyy analiz prysliv"yiv i prykazok...”).

Контрольна величина, починаючи від якої кваліфікуємо поєдання слів як невипадкове, залежить від низки чинників: абсолютної частоти конструкції, абсолютної частоти її окремих складників і від розміру корпусу. Для Українського національного лінгвістичного корпусу, розмір якого під час виконання підрахунків складав 189 200 000 слововживань, ця контрольна величина дорівнює 7,56 (процедуру виведення контрольної величини викладено у праці (Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”, 310-311)):

Відповідно результати МІ, одержані для всіх проаналізованих двокомпонентних цілісних словосполучень, засвідчують невипадковість поєднання компонентів у їх складі.

Покажемо приклад обчислень для трикомпонентних словосполучень. УНЛК дає такі кількісні дані для конструкції ніхто з нас: абсолютна частота конструкції становить 354, абсолютна частота словоформи ніхто – 3438, з – 6301, нас − 4291. Підставляючи ці дані до формули (1), отримуємо:

Статистичні дані, одержані для три- і чотирикомпонентних цілісних словосполучень, наведено в таблицях 2 і 3 відповідно.

Дані, наведені в таблицях 2 і 3, засвідчують, що коефіцієнт МІ для всіх цілісних словосполучень є високим: для трикомпонентних одиниць він перебуває в межах від 21,44 (речі великого розміру) до 29,47 (до пізнього вечора), тобто у 2,8 – 3,9 разу більший за 7,56; для чотирикомпонентних – від 35,49 (хтось з наших людей) до 44,63 (майстер спорту міжнародного класу), тобто в 4,7 – 5,9 разу більший за контрольну величину.

З‑поміж трикомпонентних одиниць низькі результати МІ мають словосполучення зі значенням сумісності, у складі яких є займенник, середні – словосполучення зі значенням вибірковості, високі – словосполучення темпоральної семантики, зокрема внаслідок високої абсолютної частоти конструкцій у корпусі текстів. Цікаво, що метафоричні словосполучення як одиничні, часто оказіональні, утворення мають низьку абсолютну частоту, проте досить високий показник МІ, очевидно, внаслідок порівняно невисоких частот їх складників.

Усі чотирикомпонентні цілісні словосполучення мають низьку абсолютну частоту вживання в корпусі текстів. Діапазон індексу МІ для цих одиниць є невеликим, близькі результати МІ зафіксовано для словосполучень зі значенням вибірковості та словосполучень з обмежувальною семантикою, вищі – для словосполучень характеризувальної семантики за умови невисокої частоти хоча б одного з її компонентів.

Статистично вірогідного зв’язку між результатами МІ та типом переданого семантико-синтаксичного відношення не зафіксовано.

Висновки. Отримані результати обчислень для цілісних словосполучень, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що для всіх проаналізованих одиниць властива невипадковість поєднання словоформ: коефіцієнт МІ перебуває в діапазоні від 8,64 до 44,63. У межах одного корпусу текстів величина МІ залежить від таких чинників, як абсолютна частота конструкції, абсолютна частота її компонентів, кількість компонентів і тип цілісного словосполучення.

Наведені статистичні дані корелюють із результатами, отриманими для інших типів фразеологічних одиниць – лексичних фразеологізмів, синтаксичних фразеологізмів, прислів’їв і приказок. Результати МІ для цілісних словосполучень є прогнозовано нижчими порівняно з іншими стійкими одиницями через меншу кількість компонентів у їх складі.

Перспективи. Подальший етап дослідження передбачає виконання статистичного аналізу інших типів стійких одиниць, зокрема складених прийменникових еквівалентів та ін.

References

Balko, Maryna. “Semantyko-syntaksychni i strukturni aspekty tsilisnykh slovospoluchen' suchasnoyi ukrayins'koyi movy (Semantic-syntactical and Structural Aspects of Indivisible Word‑combinations of Modern Ukrainian Language)ˮ: Diss. Zaporizhzhya National U, 2004. Abstract. Print.

Balko, Maryna. Aktual'ni problemy teoriyi slovospoluchennya suchasnoyi ukrayins'koyi movy (Actual Problems of the Word-combination Theory of Modern Ukrainian Language): [monohrafiya]. Dnipropetrovs'k: Svidler, 2014. Print.

Church, Kenneth Ward, and Hanks, Patrick. “Word Association Norms, Mutual Information, and Lexicography.” Computational Linguistics 16(1) (1990): 22–29. Print.

Everitt, B. S. The Cambridge Dictionary of Statistics. 2nd edition. Cambridge: Cambridge University Press, 2002. Print.

Fano, Robert M. Transmission of Information: A Statistical Theory of Communications. The Technology Press, M.I.T., and John Wiley & Sons, Inc., New York, 1961. Print.

Lychuk, Mariya. “Syntaksychno nechlenovani slovospoluchennya: ustalenist' termina, istoriya doslidzhennya (Syntactically Nondivided Word-combinations: Term Sustainability, History of Research)”. Linguistic Bulletin, 21 (2016): 142-148. Print.

Maksymiuk, Oksana. “Koreferentnist' nerozkladnykh komponentiv u strukturi rechennya (Co‑reference of Stable Components in the Structure of the Sentence).” Diss. Chernivtsi National U, 2005. Abstract. Print.

Petrovic, S., Snajder, J., Basic, B.D., Kolar, M. “Comparison of collocation extraction for document indexing.” Journal of Computing and information technology, 14 (4) (2006): 321-327. Print.

Sytar, Hanna. “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv (Statistical Criteria of Analysis of Syntactic Idioms).” Visnyk Donets'koho Natsional'noho Universytetu. Seriya B. Humanitarni Nauky (The Bulletin of Donetsk National University. Series B. Humanities) 1-2 (2015): 245–256. Print.

Sytar, Hanna. “Statystychnyі analiz prysliv"yiv i prykazok: pokaznyk asotsiatsiyi mutual information (na materiali Ukrayins'koho natsional'noho linhvistychnoho korpusu) (Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus).” Лiнгвiстичнi студiї / Linguistic Studies 35 (2018): 170-177. Print.

Sytar, Hanna. “Statystychnyi analiz frazeolohizovanykh rechen: pokaznyk asotsiatsii mutual information (Statistical Analysis of Sentences with Phraseological Structures: Association Measure of Mutual Information).” Ukrainske movoznavstvo (Ukrainian Linguistics). 1(46) (2016): 103-125. Print.

Sytar, Hanna. Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky (Syntactic Idioms in the Context of Construction Grammar). Vinnytsya: ТОV «Nilan-LTD», 2017. Print.

Ukrainska mova: Entsyklopediia (Ukrainian language: Encyclopedia). Redkol.: Rusanivskyi V. M. (spivholova), Taranenko O. O. (spivholova), Ziabliuk M. P. ta in. 2-he vyd., vypr. i dop. Kyiv: Vyd-vo “Ukrainska entsyklopediia” im. M. P. Bazhana, 2004. Print.

Yagunova, Ye.V., Pivovarova, L.M. “Ot kollokatsiy k konstruktsiyam (From Collocations to Constructions)”. ACTA LINGUISTICA PETROPOLITANA. Works of the Institute of Linguistic Researches of RAS, Russkiy yazyk: grammatika konstruktsiy i leksiko-semanticheskie podkhody (The Russian Language: Construction Grammar and Lexical and Semantic Approaches): X, part 2. (2014) 568-617. Print.

Zahnitko, Anatoliy. Slovnyk suchasnoyi linhvistyky: ponyattya i terminy (Dictionary of Modern Linguistics: Concepts and Terms). Donets'k: DonNU, 2013. Print.

Zahnitko, Anatoliy. Teoretychna hramatyka ukrayins'koyi movy: Syntaksys (Theoretical Grammar of the Ukrainian Language: Syntax). Donets'k: DonNU, 2001. Print.