Qu’est-ce que l’agglutination ?

reculer
avancer

Qu’est-ce que l’agglutination ?

au début
table des matières
à la fin

Lánc, lánc, eszterlánc,

eszterlánci cérna,

cérna volna, selyem volna,

mégis kifordulna.

(Une rime d’enfants [.hun])

Eszterlánc

Bien sûr, l’eszterlánc n’est pas la « chaîne d’Ester », bien que personne ne sache plus très bien ce que ce terme désignait à l’origine (.hun) ☹. Mais pour comprendre comment l’agglutination fonctionne, il nous est indispensable de savoir qu’est-ce qu’une « betűlánc » c’est-à-dire une chaîne de caractères (ou un string [.eng]). Comme cette notion appartient au domaine de l’informatique, c’est de là qu’il nous faut emprunter l’opération algébrique qui sert à construire les chaînes de caractères.

Cette opération est appelée concaténation (betűragasztás – collage de caractères) et c’est l’outil essentiel dans l’études des langages de programmation, mais son principe s’applique en fait à tous les langages, en particulier aux langues agglutinantes.

La concaténation

Pour simplifier les choses, prenons d’abord un alphabet fait de trois caractères :

A = {a,b,c}

Du reste, cet « alphabet » peut être toute sorte d’ensemble (toutefois fini) de symboles, comme les phonèmes d’une langue ou bien leurs représentants graphiques, les lettres formant l’alphabet traditionnel, les gestes de la langue des signes, le code morse, des pictogrammes, etc. Ceci dit, il nous manque encore une opération pour pouvoir former des mots qui devra :

    1. stipuler sans équivoque l’ordre consécutif des symboles :
      1. a + b ≠ b + a
    2. Bien que nous utilisions ici le signe de l’addition, cette opération n’est pas commutative comme celle-là puisqu’en général, les mots ne sont pas égaux à leurs inverses. Ainsi par exemple be (au dedans) doit être quelque chose de différent de eb (le chien) ☺ ;
    3. négliger la combinaison des éléments à analyser :
      1. a + (b + c) = (a + b) + c
    4. Cela veut dire que l’opération est associative ce qui est important pour la compositionnalité (.pdf) des suffixes. Ainsi le mot « ebbe » (dans le chien) aura la même signification indépendamment du mode d’analyse : eb + (be) = (eb + b) + e ;
    5. posséder un élément neutre :
      1. a + ∅ = ∅ + a = a
    6. L’utilisation du signe de l’ensemble vide pour l’élément neutre est justifié d’une part par la particularité des suffixes hongrois d’être en fait, comme nous allons le voir, des ensembles, et d’autre part par l’habitude linguistique à désigner le suffixe vide par ce même symbole comme dans la phrase « Az eb+ ugat+ » (Le chien aboie).

L’exemple pris dans la vie

Avec l’opération ci-dessus, on peut donc agglutiner les symboles d’un alphabet donné, et ce :

    • dans n’importe quel ordre,
    • dans une quantité ad libitum,
    • mais toujours avec une limite certaine sur la longueur.

L’alignement de symboles – ou de « lettres » si vous voulez – qu’on obtient ainsi sont appelés des mots. Puisque la seule chose qui compte lors de l’enchaînement des éléments est leur séquence, cette construction est syntagmatique dans le sens du chapitre précédent. Il s’en suit qu’elle peut aussi conduire à la formation d’unités de plus en plus grandes. Si la génération de telles unités se fait selon des règles précises, la totalité des chaînes de caractères ou de mots qui peuvent être engendrées formera un langage.

On peut citer comme exemple le « langage » de l’hérédité qui n’est rien d’autre que l’acide désoxyribonucléique dont l’« alphabet » comporte les quatre nucléotides cytosine, guanine, adénine et thymine. Ce langage est formé de mots qui sont les gènes et de phrases qui sont les chromosomes – et c’est exactement comme cela que la génomique les traite ☺.

Les expressions rationnelles

La totalité des mots d’une longueur n formés à partir de l’alphabet A se symbolise par l’ensemble An. Comme il n’y a que le mot vide dont la longueur soit 0 et qui est spécifié par {∅}, c’est le seul élément possible de l’ensemble A0. En outre, l’ensemble de toutes les chaînes de caractères d’une longueur finie composées à partir des éléments de l’alphabet de base et le mot vide, en les répétant si besoin est, se dénote d’habitude* par A :

fermeture de Kleene

Cette formule définit à la fois un mode de concaténation qui s’appelle de fait l’étoile de Kleene, mais il est bien plus facile de comprendre sa fonction si l’on l’interprète comme un joker. C’est parce qu’en réalité il ne s’agit que d’une notation sommaire pour désigner des groupes de mots qui ont certaines lettres en commun. En reprenant l’alphabet introductif, la notation « ba⁕ » représentera donc l’ensemble des mots qui commencent par la syllabe « ba- » et qui font partie de l’ensemble des mots encore plus nombreux qui commencent par la lettre « b- » comme dans l’exemple suivant :

bab (le haricot), baba (le bébé), babba (dans le haricot) ∊ ba⁕ ⊂ b⁕

Le joker est par conséquent la répétition facultative d’un ou plusieurs éléments, y compris l’élément vide. S’il survient après un radical – thématique ou non – comme dans l’exemple précédent, il en fait une racine (gyök). Cependant, en analysant des mots réels, un joker entre deux consonnes ne fait que de représenter une voyelle (voc, vocalis) quelconque. C’est une façon de dire que dans une telle position, on l’assimile à l’ensemble {voc}1. Ainsi, l’expression p⁕r⁕ devient même une racine étymologique qui expliquerait la ressemblance de mots comme parázs (la braise), piros (rouge), pirít (faire rougir, griller), pörkölt (flambé, ragoût à la hongroise), por (la cendre), per (le litige, le procès), etc.

À cause de l’harmonie vocalique, on ne peut classifier convenablement la multitude de suffixes qui en résultent que si l’on regroupe les voyelles en question. Si par exemple on écrivait le suffixe de l’inessif (ines) avec un joker, on pourrait bien remplacer toutes les formes de ce suffixe par une simple expression -b⁕n dans laquelle il ne peut y avoir que les deux voyelles a ou e à la place du joker puisque :

ines = -b⁕n = -bAn = ban | ben

La toute dernière opération dans l’équation ci-dessus est le choix « | » qui correspond à l’union ensembliste. Nous possédons donc en tout avec la concaténation « + » et la répétition facultative « ⁕ » trois opérations dérivées de la théorie des ensembles pour décrire les chaînes de caractères ou de mots composés à partir d’un alphabet A. Toute expression qui ne fait appel qu’à ces trois opérations est appelée une expression rationnelle.

Rationnel ou pas

De plus, si toutes les expressions d’un langage LA donné sont rationnelles, L lui-même est un langage rationnel. Bien que ce soit la classe de langages formels avec les règles les plus strictes, elle est aussi la plus restreinte en ce qui concerne la cardinalité (cf. la hiérarchie de Chomsky). Pourtant, dans une langue naturelle cette cardinalité semble proportionnelle à la richesse des paradigmes.

Mais nous avons déjà pu observer plus tôt que la complexité des paradigmes est justement contraire à la régularité de la syntaxe. Ce fait est corroboré par une remarque de Noam Chomsky (.hun) qui disait qu’« un langage régulier [c’est-à-dire rationnel] est assez puissant pour décrire la morphologie de l’anglais, mais il n’est pas assez puissant pour pouvoir modeler la syntaxe anglaise ». La question demeure tout de même, si c’est aussi valable pour les langues agglutinantes.

Concaténation et agglutination

C’était donc le fondement un peu mathématique certes, mais néanmoins indispensable de la concaténation qui permettra de bien comprendre la notation usée pour décrire la syntaxe du hongrois. D’ailleurs, cette concaténation ne se confond avec l’agglutination (adglutinare – accoler) que si les éléments d’un langage L acquièrent une →signification. Mais comme l’analyse doit se faire sur plusieurs niveaux, ce ne sont pas que les mots qui auront un sens, mais aussi leurs composantes, c’est-à-dire les symboles de l’alphabet A qui lui-même sera différent pour chaque niveau…

avancer

| au suivant |

* Note :

Le signe employé ici n‘est pas simplement l’astérisque usité Nº U+002a (.eng) ayant la forme « * », mais le signe floralU+2055 (.eng) qui apparait comme « ⁕ » et qui constitue un des signes de ponctuation du bengali. Ce faisant, les deux signes peuvent être aisément distingués dans chaque police de caractères. De plus, le signe floral mérite bien son nom de par sa belle forme marquante ☺.

| retourner |

web analytics
joomla analytics
Contrat Creative Commons

Tanulj magyarul!fr de Pierre GAAL est mis à disposition selon les termes de la licence Creative Commons paternité 2.0 France.

Contact Fiche de l‘éditeur Mentions légales