Статистичний аналіз прислів'їв і приказок: показник асоціації mutual information (на матеріалі Українського національного лінгвістичного корпусу)

Додаткова інформація

Інформація про автора:


Ситар Ганна Василівна − кандидат філологічних наук, доцент, доцент кафедри загального та прикладного мовознавства і слов’янської філології Донецького національного університету імені Василя Стуса (м. Вінниця, Україна).

Коло наукових зацікавлень: синтаксис, семантика, прагматика, конструкційна граматика, прикладна лінгвістика.

Листування: h.v.sytar@donnu.edu.ua

Citation:

KSytar, H. Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus) [Text] // Linhvistychni Studiyi / Linguistic Studies : collection of scientific papers / Donetsk National University; Ed. by Anatoliy Zahnitko. Vinnytsia : Vasyl' Stus DonNU, 2018. Vol. 35. Pp. 170-177. ISBN 966-7277-88-7

DOI: http://dx.doi.org/10.31558/1815-3070.2018.35.27

Історія публікації:

Випуск вперше опубліковано в Інтернеті: 06 червня 2018 року

Стаття отримана: 20 березня 2018 року та вперше опублікована в Інтернеті: 06 червня 2018 року

Анотація.

Стаття продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і фразеологізованих одиниць української мови. У ній з’ясовано ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації mutual information (МІ).

Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього звʼязку.

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів.

Ключові слова: показник асоціації, фразеологічна одиниця, mutual information, прислів’я, приказка, статистика, українська мова.




Statistical Analysis of Proverbs and Sayings: Association Measure of Mutual Information (on material of Ukrainian National Linguistic Corpus)

Hanna Sytar

Department of General and Applied Linguistics and Slavonic Philology, Vasyl' Stus Donetsk National University, Vinnytsia, Ukraine

Abstract

Background: The author examines the statistical analysis of proverbs and sayings on the material of the Ukrainian National Linguistic Corpus of Ukrainian Lingua-Information Fund, NAS of Ukraine. Corpus-oriented statistical research of Ukrainian proverbs and sayings has not been carried out yet. The object of the analysis is 53 proverbs and sayings, selected from authoritative sources: Ukrainski prykazky, pryslivia i take inshe (Ukrainian proverbs, sayings etc)/ Ukl. M.Nomys. Kyiv: Lybid, 1993; Pryslivia ta prykazky (Proverbs and sayings)/ ukl. M. Paziak Kyiv: Nauk. dumka, 1991. Among them, there are 9 three-component, 17 − four-component, 14 – five-component, 6 – six-component and 7 – seven‑component units.

Purpose: The purpose of this study is to determine the degree of non-randomness of the components combination in Ukrainian proverbs and sayings by means of the calculating the association measure of mutual information (hereinafter МІ).

Results: The obtained results of the calculations for 52 proverbs and sayings, done with the help of the Ukrainian National Linguistic Corpus data, prove that all analysed units have high degree of non-randomness combination of word forms (MI is in the range from 24.5 to 95.27), which is a quantitative confirmation of their connection stability. The reference value, from which the connection of words is considered to be non-random, depends not only on the indicators of the absolute frequency of the construction and its individual components but also on the size of the corpus. For the Ukrainian National Linguistic Corpus, which consisted of 189 200 000 words in February 2018, the reference value is 7.56.

There is a statistically probable connection between the number of components in the proverb or saying and the size of association measure mutual information. Thus, for the three‑component units the result of the MI is from 24.5 (Хліб усьому голова / Khlib usomu holova)) to 35.34 (Горбатого могила виправить / Horbatoho mohyla vypravyt); for four‑component units – from 37.34 (Двічі літа не буває / Dvichi lita ne buvaie)) to 51.01 (Терпи, козаче, отаманом будеш / Terpy, kozache, otamanom budesh); for five-component from 53.42 (Гуртом добре й батька бити / Hurtom dobre y batka byty)) to 65.76 (Яке зіллячко, таке й сім'ячко / Yake zilliachko, take y simiachko); for six-component – from 69,53 (Як неділя, то й сорочка біла / Yak nedilia, to y sorochka bila) to 79.98 (Дай серцю волю – заведе в неволю / Dai sertsiu voliu – zavede v nevoliu); for seven-component – from 86.83 (Пан з паном, а Іван з Іваном / Pan z panom, a Ivan z Ivanom) to 95.27 (Гол, як сокол, а гострий, як бритва / Hol, yak sokol, a hostryi, yak brytva).

Discussion: The presented results are broadly consistent with the statistical data obtained in the previous stages of the study of other types of phraseological units – lexical and syntactic idioms. At the same time, they prove the higher degree of non-randomness of the combination of word forms for proverbs and sayings, which, obviously, are the consequence of their multicomponent, as well as the stability and integrity of their perception by the speakers of the Ukrainian language. It is considered perspective to involve other types of phraseological units to the statistical analysis.

Keywords: association measure, phraseological units, mutual information, proverb, saying, statistics, the Ukrainian language.

Vitae

Hanna Sytar is PhD of Philology, Assosiate Professor, Assosiate Professor of Department of General and Applied Linguistics and Slavonic Philology at Donetsk National University named after Vasyl Stus. Her areas of research interests include syntax, semantics, pragmatics, construction grammar, applied linguistics.

Correspondence: h.v.sytar@donnu.edu.ua

© Редакція Міжнародного збірника наукових праць «Лінгвістичні студії»

Лінгвістчині студії

Випуск 35, 2018, с. 170-177

Статистичний аналіз прислів'їв і приказок: показник асоціації mutual information (на матеріалі Українського національного лінгвістичного корпусу)

Ситар Ганна

Стаття вперше опублікована в Інтернеті: 06 червня 2018 року

Стаття.

Ганна Ситар

УДК 81'373.7:81'32

СТАТИСТИЧНИЙ АНАЛІЗ ПРИСЛІВ'ЇВ І ПРИКАЗОК:

ПОКАЗНИК АСОЦІАЦІЇ MUTUAL INFORMATION

(НА МАТЕРІАЛІ УКРАЇНСЬКОГО НАЦІОНАЛЬНОГО

ЛІНГВІСТИЧНОГО КОРПУСУ)[1]

Стаття продовжує цикл публікацій, присвячених статистичному аналізу фразеологічних і фразеологізованих одиниць української мови. У ній з’ясовано ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації mutual information (МІ).

Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ (МІ перебуває в діапазоні від 24,5 до 95,27), що є кількісним підтвердженням стійкості їхнього звʼязку.

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я або приказки і величиною показника асоціації МІ. Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів.

Ключові слова: показник асоціації, фразеологічна одиниця, mutual information, прислів’я, приказка, статистика, українська мова.


Постановка проблеми, актуальність дослідження. Сучасна лінгвістика позиціонує корпуснозорієнтованість як необхідну умову мовознавчого дослідження. Статистичний аналіз фразеологічних і фразеологізованих одиниць належить до актуальних завдань лінгвістичної статистики, оскільки за допомогою математичних методів і прийомів покликаний підтвердити або спростувати належність певної мовної одиниці до класу стійких. Процедуру такого аналізу на матеріалі синтаксичних фразеологізмів української мови запропоновано у працях (Sytar, “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv”; Sytar, “Statystychnyi analiz frazeolohizovanykh rechen…”; Sytar, “Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky”).

Обчислення показників асоціації як метод визначення невипадковості поєднання компонентів може бути застосований для різних типів конструкцій. Цю статтю присвячено аналізу прислів’їв і приказок, які в межах широкого підходу до розуміння обсягу фразеології кваліфікують як один із типів стійких одиниць (В. Л. Архангельський, А. М. Баранов, Д. О. Добровольський, Т. О. Туліна та ін.).

У розумінні прислів’їв і приказок спираємось на усталений в українському мовознавстві погляд, згідно з яким прислів’я визначають як «стійкий вислів переважно фольклорного походження, в якому зафіксований практичний досвід народу та його оцінка різних подій і явищ. Прислів’я на відміну від приказок, − це самостійні судження, граматично та інтонаційно оформлені як прості («Дружній череді і вовк не страшний») або складні («Біда тому волові, котрого корова коле») речення» (Ukrainska mova: Entsyklopediia: 530, автор статті М.Т. Демський). Оскільки в зібраннях прислів’їв і приказок їх подають без розмежування, до статистичного аналізу залучаємо їх разом як групу умовно однорідних одиниць.

Матеріал і методи дослідження. Об’єктом статистичного аналізу стали 53 прислів’я і приказки, дібрані з авторитетних джерел (“Ukrainski prykazky, pryslivia i take inshe”; “Pryslivia ta prykazky”), серед них 9 трикомпонентних, 17 − чотирикомпонентних, 14 − п’ятикомпонетних, 6 − шестикомпонентних і 7 − семикомпонентних одиниць. Вірогідність одержаних кількісних даних забезпечено виконанням обчислень на матеріалі значного за обсягом й індексованого корпусу текстів − Українського національного лінгвістичного корпусу (далі УНЛК) Українського мовно-інформаційного фонду НАН України.

В арсеналі сучасної статистики існує низка статистичних критеріїв (коефіцієнтів), обʼєднаних терміном «показники асоціації» (англ. association measures, measures of association). За Кембриджським словником статистики Брайана Еверітта (Brian S. Everitt), «Показники асоціації – числові індекси, що обчислюють силу статистичної залежності двох або більше квалітативних змінних» (Everitt: 241).

У цьому авторитетному лексикографічному виданні термін «асоціація» витлумачено як «загальний термін, що використовується для опису відношення між двома змінними. Значною мірою є синонімічним до кореляції» (Everitt: 20).

У словнику статистики й методів дослідження Американської асоціації психологів (за ред. Sheldon Zedeck) асоціацію визначено як «ступінь статистичної залежності або відношення між двома або більше явищами», а кореляцію – як «ступінь відношення (зазвичай лінійного) між двома змінними, який може бути обрахований як коефіцієнт кореляції, сила асоціації» (APA: 65).

Статистична залежність послідовності словоформ у корпусі визначувана за допомогою показника асоціації mutual information (далі МІ) (буквально − взаємна, спільна інформація). Поняття МІ ввів у теорію інформації Роберт Маріо Фано (Fano). У лінгвістичних дослідженнях його вперше застосували Кеннет Ворд Чарч (Kenneth Ward Church) і Патрік Генкс (Patrick Hanks) (Church, Hanks). Сутність спільної інформації вчені визначили так: «спільна інформація порівнює ймовірність спостереження х та у разом (поєднана ймовірність) з імовірностями спостереження х та у незалежно (випадкова)» (Church, Hanks: 23). Відповідно у дослідників мова йшла про невипадковість поєднання двох слів у тексті і про потребу залучення цього методу для лексикографії, укладання конкордансів, вивчення сполучуваності слів та ін.

Оскільки обраний об’єкт дослідження − прислів’я та приказки − є багатокомпонентними (три- і більше) одиницями, постає потреба врахувати у формулі МІ більшу кількість компонентів. Тому обчислення здійснено за формулою (1), виведеною у працях (Petrovic, Snajder, Basic, Kolar: 323; Yagunova, Pivovarova: 586).

(1),

де MI – коефіцієнт mutual information;

і – це кількість компонентів конструкції;

с1 – перша лексична одиниця;

с2 – друга лексична одиниця;

сіі-а лексична одиниця;

f(c1,c2,…сі) – абсолютна частота вживання конструкції c1, c2, … ,сі в корпусі (з урахуванням порядку одиниць усередині конструкції);

f(c1) – абсолютна частота c1 в корпусі;

f(c2) – абсолютна частота c2 в корпусі;

f(cі) – абсолютна частота cі в корпусі;

N – загальна кількість словоформ у корпусі;

log2 – логарифм числа за основою 2.

Мета цього дослідження – визначити ступінь невипадковості поєднання компонентів у складі українських прислів’їв і приказок за допомогою обчислення показника асоціації МІ. Для досягнення поставленої мети розв’язано такі завдання:

1) укладено реєстр прислів’їв і приказок, що охоплює одиниці з різною кількістю компонентів і різну тематику;

2) з УНЛК отримано частотні дані для прислів’їв і приказок;

3) виконано обчислення за формулою МІ для багатокомпонентних одиниць;

4) проаналізовано отримані результати.

Для коректного встановлення абсолютної частоти конструкції та абсолютної частоти окремих словоформ, що входять до її складу, в пошуковій формі УНЛК було задано визначений порядок словоформ та передбачено пошук словоформи, а не слова з урахуванням його парадигми. Оскільки цей корпус текстів є динамічним, зазначимо, що частотні дані подаємо станом на лютий 2018 року. Загальна кількість слововживань у корпусі в період здійснення підрахунків становила 189200000 одиниць.

Покажемо приклад здійснених підрахунків. Для обчислення ступеня невипадковості поєднання словоформ у межах прислів’я Терпи, козаче, отаманом будеш з УНЛК було отримано такі кількісні дані: абсолютна частота прислів’я становить 11, абсолютна частота словоформи терпи − 228; козаче − 307; отаманом − 239; будеш − 1968. Підставляючи ці дані до формули (1), отримуємо:

= 51,007076 ≈ 51,01

Коефіцієнт МІ обраховували з точністю до двох знаків після коми. Отримані результати МІ для трикомпонентних прислів’їв і приказок подано в таблиці 1.

Як видно з таблиці 1, коефіцієнт МІ для трикомпонентних прислів’їв і приказок перебуває у межах від 24,5 (Хліб усьому голова) до 35,34 (Горбатого могила виправить).



[1] Дослідження виконано в межах фундаментального наукового проекту «Об’єктивна і суб’єктивна мовносоціумна граматика: комунікативно-когнітивний та прагматико-лінгвокомп’ютерний виміри» (0118U003137).

Контрольна величина, починаючи від якої вважаємо зв’язок слів невипадковим, залежить від показників абсолютної частоти конструкції, від абсолютної частоти її окремих складників і від розміру корпусу. Для Українського національного лінгвістичного корпусу, розмір якого в лютому 2018 року становив 189 200 000 слововживань, ця контрольна величина становить 7,56 (детально процедуру виведення контрольної величини викладено у праці (Sytar 2017: 310-311)):

Відповідно отримані результати можна кваліфікувати як такі, що відбивають високий ступінь невипадковості (зв’язаності) компонентів конструкції, оскільки вони більше ніж утричі перевищують контрольну величину.

Статистичні дані щодо чотири-, п’яти-, шести- й семикомпонентних прислів’їв і приказок наведено в таблицях 2, 3, 4 і 5 відповідно.

Дані, наведені в таблицях 2 – 5 дають змогу констатувати, що коефіцієнт МІ для чотирикомпонентних прислів’їв і приказок перебуває в межах від 37,34 (Двічі літа не буває) до 51,01 (Терпи, козаче, отаманом будеш), тобто в 5 − 6 разів більший за 7,56; для п’ятикомпонентних – від 53,42 (Гуртом добре й батька бити) до 65,76 (Яке зіллячко, таке й сім'ячко), тобто в 7 – 8 разів більший за контрольну величину; для шестикомпонентних − від 69,53 (Як неділя, то й сорочка біла) до 79,98 (Дай серцю волю – заведе в неволю), тобто в 9 – 10 разів вищий від контрольної величини; для семикомпонентних − від 86,83 (Пан з паном, а Іван з Іваном) до 95,27 (Гол, як сокол, а гострий, як бритва), тобто більший в 11 − 12 разів за контрольну величину.

Висновки. Отримані результати обчислень для 53 прислів’їв і приказок, виконаних за даними Українського національного лінгвістичного корпусу, доводять, що всі проаналізовані одиниці мають високий ступінь невипадковості поєднання словоформ: коефіцієнт МІ перебуває в діапазоні від 24,5 до 95,27 (тобто є втричі – удванадцятеро більшим, ніж контрольна величина), що є кількісним підтвердженням стійкості звʼязку словоформ у складі відповідних одиниць.

Зафіксовано статистично вірогідний зв’язок між кількістю компонентів прислів’я / приказки й величиною показника асоціації МІ. Так, для трикомпонентних одиниць результат МІ становить від 24,5 (Хліб усьому голова) до 35,34 (Горбатого могила виправить); для чотрикомпонетних – від 37,34 (Двічі літа не буває) до 51,01 (Терпи, козаче, отаманом будеш); для п’ятикомпонентних від 53,42 (Гуртом добре й батька бити) до 65,76 (Яке зіллячко, таке й сім'ячко); шестикомпонентних − від 69,53 (Як неділя, то й сорочка біла) до 79,98 (Дай серцю волю – заведе в неволю); семикомпонентних − від 86,83 (Пан з паном, а Іван з Іваном) до 95,27 (Гол, як сокол, а гострий, як бритва).

Серед нерозв’язаних на сьогодні проблем статистичного аналізу варто відзначити омонімію, зокрема, потребу залучення людини-експерта для розмежуванням випадків типу гол (пор. перший гол і гол, як сокол) або на двох стільцях (пор. стійка сполука сидіти на двох стільцях і вільний (нефразеологізований) вияв у реченні Посеред кімнати на двох стільцях стоїть маленька з сірої бляхи ванночка (В. Винниченко. Записки Кирпатого Мефістофеля).

Наведені результати загалом узгоджуються із статистичними даними, отриманими на попередніх етапах дослідження для інших типів фразеологічних одиниць – лексичних і синтаксичних фразеологізмів. Водночас вони засвідчують вищий ступінь невипадковості поєднання словоформ саме для прислів’їв і приказок, що є, очевидно, наслідком їхньої багатокомпонентності, стійкості й цілісності їхнього сприйняття носіями української мови.

Перспективним вважаємо статистичний аналіз інших типів стійких одиниць і зіставлення відповідних даних з результатами, отриманими для синтаксичних і лексичних фразеологізмів, прислів’їв і приказок.

References

APA Dictionary of Statistics and Research Methods. Sheldon Zedeck, PhD, editor in chief. Washington, DC: American Psychological Association, 2014. Print.

Church, Kenneth Ward, and Patrick Hanks. “Word Association Norms, Mutual Information, and Lexicography”. Computational Linguistics 16(1) (1990): 22–29. Print.

Everitt, B. S. The Cambridge Dictionary of Statistics. 2nd edition. Cambridge: Cambridge University Press, 2002. Print.

Fano, Robert M. Transmission of Information: A Statistical Theory of Communications . The Technology Press, M.I.T., and John Wiley & Sons, Inc., New York, 1961. Print.

Petrovic, S., Snajder, J., Basic, B.D., Kolar, M. “Comparison of collocation extraction for document indexing”. Journal of Computing and information technology, 14 (4) (2006): 321-327. Print.

Sytar, Hanna. “Statystychni Kryteriyi Analizu Syntaksychnykh Frazeolohizmiv (Statistical Criteria of Analysis of Syntactic Idioms).” Visnyk Donets'koho Natsional'noho Universytetu. Seriya B. Humanitarni Nauky (The Bulletin of Donetsk National University. Series B. Humanities) 1-2 (2015): 245–256. Print.

Sytar, Hanna. “Statystychnyi analiz frazeolohizovanykh rechen: pokaznyk asotsiatsii mutual information (Statistical Analysis of Sentences with Phraseological Structures: Association Measure of Mutual Information)”. Ukrainske movoznavstvo (Ukrainian Linguistics). 1(46) (2016): 103-125. Print.

Sytar, Hanna. Syntaksychni frazeolohizmy v rozrizi konstruktsiinoi hramatyky (Syntactic Idioms in the Context of Construction Grammar). Vinnytsya: ТОV «Nilan-LTD», 2017. Print.

Ukrainska mova: Entsyklopediia (Ukrainian language: Encyclopedia). Redkol.: Rusanivskyi V. M. (spivholova), Taranenko O. O. (spivholova), Ziabliuk M. P. ta in. 2-he vyd., vypr. i dop. Kyiv: Vyd-vo “Ukrainska entsyklopediia” im. M. P. Bazhana, 2004. Print.

Yagunova, Ye.V., Pivovarova, L.M. “Ot kollokatsiy k konstruktsiyam (From Collocations to Constructions)”. ACTA LINGUISTICA PETROPOLITANA. Works of the Institute of Linguistic Researches of RAS, Russkiy yazyk: grammatika konstruktsiy i leksiko-semanticheskie podkhody (The Russian Language: Construction Grammar and Lexical and Semantic Approaches): X, part 2. (2014) 568-617. Print.

List of Sources

Pryslivia ta prykazky (Proverbs and Sayings). Ukl. M. Paziak. Red. Myshanych S.V.; red. Berezovskyi I.P.; red. Hordiichuk M.M.; red. Zubkov S.D.; red. Sushko L.D.; red. Kuz V.P.Kyiv: Nauk. dumka, 1991. Print.

Ukrainski prykazky, pryslivia i take inshe (Ukrainian Sayings, Proverbs etc). Ukl. M. Nomys. Kyiv: Lybid, 1993. Print.