Research Topics / Thème de recherche

Cadre général : Mon travail de thèse entre dans le cadre du Traitement Automatique du Langage Naturel (TALN) et en particulier sur le résumé automatique de documents arabes.

Sujet de thèse: Techniques hybrides pour le résumé automatique. Application à la langue arabe.

Résumé : Cette thèse s’intègre dans le cadre du traitement automatique du langage naturel. La problématique du résumé automatique de documents arabes qui a été abordée, dans cette thèse, s’est cristallisée autour de deux points. Le premier point concerne les critères utilisés pour décider du contenu essentiel à extraire. Le deuxième point se focalise sur les moyens qui permettent d’exprimer le contenu essentiel extrait sous la forme d’un texte ciblant les besoins potentiels d’un utilisateur.

Afin de montrer la faisabilité de notre approche, nous avons développé le système "L.A.E", basé sur une approche hybride qui combine une analyse symbolique avec un traitement numérique.

Les résultats d’évaluation de ce système sont encourageants et prouvent la performance de l’approche hybride proposée. Ces résultats, ont montré, en premier lieu, l’applicabilité de l’approche dans le contexte de documents sans restriction quant à leur thème (Éducation, Sport, Science, Politique, Reportage, etc.), leur contenu et leur volume. Ils ont aussi montré l’importance de l’apprentissage dans la phase de classement et sélection des phrases forment l’extrait final.

Mots clés :

Résumé automatique, mono-document, théorie de la structure rhétorique, arbre RST, apprentissage, algorithme SVM, approche hybride.

Abstract : This thesis falls within the framework of Natural Language Processing. The problems of automatic summarization of Arabic documents which was approached, in this thesis, are based on two points.

The first point relates to the criteria used to determine the essential content to extract. The second point focuses on the means to express the essential content extracted in the form of a text targeting the user potential needs.

In order to show the feasibility of our approach, we developed the "L.A.E" system, based on a hybrid approach which combines a symbolic analysis with a numerical processing.

The evaluation results are encouraging and prove the performance of the proposed hybrid approach.

These results showed, initially, the applicability of the approach in the context of mono documents without restriction as for their topics (Education, Sport, Science, Politics, Interaction, etc), their content and their volume. They also showed the importance of the machine learning in the phase of classification and selection of the sentences forming the final extract.

Key words :

Automatic summarization, mono-document, rhetorical structure theory, RST-tree, machine learning, SVM algorithm, hybrid approach.

sous la direction du Prof. Lamia Hadrich Belguith, FSEG Sfax et Prof. Philippe Blache, Université de Provence – Marseille.