PhD thesis defended on Tuesday March 17th 2015
Thèse de doctorat soutenue le mardi 17 mars 2015
Manuscrit de thèse / PhD dissertation
Slides de la soutenance
Supervisors: Prof. Sylvie Després and Dr. Thierry Hamon
Titre de la thèse/ Thesis title
Analyse distributionnelle appliquée aux textes de spécialité : réduction de la dispersion des données par abstraction des contextes
(Distributional analysis applied to specialised corpora: reduction of data sparsity through context abstraction)
Composition du jury
Mme Cécile FABRE, Professeur, CLLE-ERSS, Univ. Toulouse 2, Rapporteur
M. Emmanuel MORIN, Professeur, LINA-CNRS, Rapporteur
M. Thierry CHARNOIS, Professeur, LIPN, Univ. Paris 13, Président
M. Pierre ZWEIGENBAUM, Directeur de recherche, LIMSI-CNRS, Examinateur
M. Olivier FERRET, Chercheur, CEA LIST, Examinateur
Résumé
Dans les domaines de spécialité, les applications telles que la recherche d'information ou la traduction automatique s'appuient sur des ressources terminologiques pour prendre en compte les termes, les relations sémantiques ou les regroupements de termes. Pour faire face au coût de la constitution de ces ressources, des méthodes automatiques ont été proposées. Parmi celles-ci, l'analyse distributionnelle s'appuie sur la redondance d'informations se trouvant dans le contexte des termes pour établir une relation. Alors que cette hypothèse est habituellement mise en œuvre grâce à des modèles vectoriels, ceux-ci souffrent du nombre de dimensions considérable et de la dispersion des données dans la matrice des vecteurs de contexte. En corpus de spécialité, ces informations contextuelles redondantes sont d'autant plus dispersées et plus rares que les corpus ont des tailles beaucoup plus petites. De même, les termes complexes sont généralement ignorés étant donné leurs faibles nombres d'occurrence.
Dans cette thèse, nous nous intéressons au problème de la limitation de la dispersion des données sur des corpus de spécialité et nous proposons une méthode permettant de densifier le modèle vectoriel en réalisant une abstraction des contextes distributionnels. Des relations sémantiques acquises en corpus sont utilisées pour généraliser et normaliser ces contextes. Nous avons évalué la robustesse de notre méthode sur quatre corpus de tailles, de langues et de domaines différents. L'analyse des résultats montre que, tout en permettant de prendre en compte les termes complexes dans l'analyse distributionnelle, l'abstraction des contextes distributionnels permet d'obtenir des groupements sémantiques de meilleure qualité mais aussi plus cohérents et homogènes.
Mots clés
Traitement Automatique des Langues, textes de spécialité, terminologie, analyse distributionnelle, modèle vectoriel, groupements sémantiques, termes complexes, relations sémantiques, abstraction de contextes
Abstract
In specialised domains, the applications such as information retrieval or machine translation rely on terminological resources for taking into account terms or semantic relations between terms or groupings of terms. In order to face up to the cost of building these resources, automatic methods have been proposed. Among those methods, the distributional analysis uses the repeated information in the contexts of the terms to detect a relation between these terms. While this hypothesis is usually implemented with vector space models, those models suffer from a high number of dimensions and data sparsity in the matrix of contexts. In specialised corpora, this contextual information is even sparser and less frequent because of the smaller size of the corpora. Likewise, complex terms are usually ignored because of their very low number of occurrences. In this thesis, we tackle the problem of data sparsity on specialised texts. We propose a method that allows making the context matrix denser, by performing an abstraction of distributional contexts. Semantic relations acquired from corpora are used to generalise and normalise those contexts. We evaluated the method robustness on four corpora of different sizes, different languages and different domains. The analysis of the results shows that, while taking into account complex terms in distributional analysis, the abstraction of distributional contexts leads to defining semantic clusters of better quality, that are also more consistent and more homogeneous.
Key words
Natural Language Processing, specialised corpora, terminology, distributional analysis, vector space model, semantic cluster, complex terms, semantic relations, context abstraction.
Master Multilingual digital documents, with honours, Inalco, Paris 2010
Master Thesis: Etude des assertions dans les textes médicaux centrée sur la relation patient - problème médical
Advisor: Dr. Thierry Hamon
Résumé
Les textes scientifiques regorgent d'assertions (hypothèses, conditions, probabilités) qui nuancent le discours et donnent plus ou moins de poids aux informations. Nous nous intéressons à l'identification des assertions portant sur la relation patient - problème médical dans les dossiers patients. Notre objectif est d'identifier automatiquement la certitude et les degrés de certitude contenus dans les énoncés des textes médicaux, ainsi que la polarité de ces énoncés (positive/négative). Nous avons travaillé dans le cadre du challenge i2b2. Pour ce faire, nous partons d'observations en corpus à partir desquelles nous définissons les ressources à utiliser. Nous avons choisi de constituer des listes de marqueurs morphologiques et lexicaux, ainsi que des patrons lexico-syntaxiques et sémantico-syntaxiques. L'application de notre méthode sur un corpus de test montre que les marqueurs permettent d'obtenir les meilleurs résultats en termes de rappel et précision. La contribution des patrons est faible. La condition et l'hypothèse s'avèrent être les deux catégories d'assertion les plus difficiles à identifier. La condition semble représentée essentiellement par des propositions subordonnées, et nous pensons que l'utilisation des fonctions syntaxiques permettrait d'améliorer les résultats pour cette catégorie. L'hypothèse en bénéficierait également, car ce type d'assertion est marqué en partie par des propositions subordonnées. Enfin, les listes de marqueurs doivent être enrichies à l'aide de synonymes.
Mots-clés : corpus médicaux ; assertion ; marqueurs ; extraction d'information ; patrons lexico-syntaxiques ; modalités ; certitude.
Abstract
Scientific texts are full of assertions (hypothesis, conditions and possibilities) that shade the discourse and give more or less weight to information. We focus on the identification of the assertions that influence the relations patient - medical problem in patient records. The aim of our study is to automatically identify certainty and the degrees of certainty in statements, as well as the polarity of these statements (positive / negative). Our work is applied to the i2b2 challenge. From observing the assertions in the corpus, we define the resources we use. We decided to build both lists of lexical and morphological markers, and lexico-syntactic and semantico-syntactic patterns. Applying our method to a test corpus shows that markers give the best results in terms of precision and recall. Patterns' contribution is poor. Condition and hypothesis turn out to be the two hardest categories to identify. Condition seems to be essentially represented by subordinate clauses. We think that the syntactic functions could be very useful to improve the results for that assertion category. Hypothesis could benefit also, because that type of assertion is partly marked by subordinate clauses. Finally, the lists of markers should be enhanced with synonyms.
Key words: medical corpora; assertion; markers; lexico-syntactic patterns; text mining; modality; certainty.