Résumé

L'ambition de ce travail est d'évaluer la faisabilité d'une implémentation informatique de l'inférence entre les langues. Nous avons concentré notre attention sur les phénomènes d'inférence dans la construction des mots, que nous avons regroupés sous le terme de liens morphosémantiques multilingues, et sur la faisabilité de leur implémentation en traduction automatique. Ce travail se veut à la fois théorique et pratique. D'un point de vue théorique, il questionne les fondements de cette inférence et propose une première ébauche de modélisation. D'un point de vue pratique, il montre comment cette inférence pourrait être exploitée pour résoudre en partie un problème important : l'incomplétude lexicale en traduction automatique

Toutes les applications de traitement de la langue basées sur les lexiques dépendent de la richesse de cette ressource. Un mot absent du lexique ne peut en effet pas être traité par le système, ce qui a des conséquences plus ou moins dommageables sur la qualité de la sortie. Suivant les applications, de nombreuses solutions ont été envisagées pour pallier cette incomplétude lexicale et deviner l'inconnu. Dans un système de traduction automatique, o&ugrav; l'on passe d'une langue à l'autre, deviner l'inconnu est une tâche très complexe, qui recouvre une étape d'analyse du mot inconnu et une étape de génération de la traduction de ce mot.

Les mots inconnus des systèmes de traduction automatique sont de différentes sortes (noms propres, mots issus de la créativité lexicale, mots erronés), mais ce sont les mots issus de la créativité lexicale qui nous intéressent dans ce travail. Ces mots constituent un ensemble dynamique : certains vont un jour entrer dans le lexique, d'autres n'existeront que dans le temps de leur production. L'exploitation des liens morphosémantiques multilingues en traduction automatique a donc pour but, in fine, de proposer une traduction pour les mots construits néologiques, sans devoir forcément les enregistrer dans le lexique. D'un point de vue pratique, nous nous sommes volontairement concentré sur un procédé de construction (la préfixation) et sur deux langues (l'italien et le français). Il n'en reste pas moins que les méthodes et les solutions proposées sont applicables à d'autres procédés de formation néologique et d'autres paires de langues.

Dans un premier temps, cette recherche présente différentes études sur l'incomplétude lexicale dans différents systèmes de traduction automatique et dans d'autres lexiques d'applications informatiques de traitement de la langue. Ces études ont montré que ce phénomène était constant et que la solution à l'incomplétude lexicale ne pouvait résider dans une simple alimentation du lexique. Par ailleurs, l'analyse qualitative de ce phénomène a souligné la présence d'un nombre important de néologismes formés selon des procédés réguliers. Ces néologismes construits sont en outre influencés par le contact entre les langues, ce qui permet d'envisager un certain parallélisme entre les constructions néologiques et donc d'imaginer une traduction automatique des néologismes.

Dans un deuxième temps, nous définissons plus précisément la notion de lien morphosémantique multilingue, qui permet de rendre compte des similitudes de construction entre deux langues. Ce lien est défini selon une double reproductibilité, à la fois au sein d'une même langue et entre les langues. Pour être exploités dans la traduction automatique des néologismes construits, ces liens sont formalisés par l'intermédiaire de règles de construction des lexèmes (RCL) bilingues, en adoptant l'approche lexématique de la morphologie, qui dispose d'outils descriptifs idéaux pour le traitement de la néologie. L'élaboration de ces RCL passe nécessairement par une étude approfondie des systèmes morphologiques des deux langues et une étude contrastive des procédés de construction. Cette démarche contrastive se fonde sur l'utilisation d'un tertium comparationis, qui joue le rôle d'un point de comparaison sur lequel nous pouvons projeter les éléments des deux langues. Cette projection nous a fourni le matériel traductionnel permettant d'implémenter les règles de construction des lexèmes bilingues. Elle a également permis, dans les étapes d'affinage, de rendre compte des divergences structurelles présentes dans les règles de préfixation des différentes langues.

La troisième partie de ce travail porte sur l'implémentation informatique de ces RCL bilingues dans le contexte de la traduction automatique des mots construits. Pour ce faire, nous avons mis au point un prototype de traducteur automatique, permettant de traduire des néologismes préfixés. Ce prototype nous a permis d'expérimenter pas à pas les étapes de la traduction automatique, en évaluant chaque principe et chaque contrainte implémentés. Nous montrons que le défi principal résidait dans la partie « analyse » des mots inconnus, étape sur laquelle nous avons concentré nos efforts pour implémenter de mécanismes de contrainte permettant d'assurer une correction optimale de cette analyse. La partie génération, pour sa part, requiert avant tout un lexique bilingue approprié pour la traduction automatique des néologismes construits. Mais la génération morphologique est également confrontée à un certain nombre de problématiques inhérentes à la préfixation, à savoir l'alternance entre préfixes (multidimensionnel ou pluridimensionnel) et l'alternance entre bases (anticancer ou anticancéreux).

Enfin, dans la quatrième partie, nous avons évalué notre démarche, d'une part, sous l'angle de la qualité de la traduction des néologismes construits et de l'influence de leur résolution sur la qualité de la phrase et, d'autre part d'un point de vue plus global, en posant des questions de faisabilité et de portabilité de notre approche. Nous avons ainsi pu dresser la liste des conditions essentielles à la construction d'un tel système : des fondements théoriques forts permettant l'implémentation de principes linguistiques confirmés ; des contraintes adéquates et des ressources appropriées.