Contribution to Intelligent Web Search:
Semantic Indexing of Unstructured Texts.
Abstract (En):
Since its promotion to public in early 1990, the World Wide Web has experienced an extraordinary growth in both its content and its use. Nevertheless, the information available is mostly unstructured so that it is increasingly hard to find the relevant object. In classical information systems, the keyword-based search is not convenient to express a particular information need for a wide public of users. Introducing the semantic dimension in document modeling may improve efficiency intelligent retrieval systems.
Three main approaches can be followed for allowing semantic search in the Web: (i) organizing retrieval systems around conceptual knowledge, (ii) using an annotation system with information collected from experts or a large number of users, (iii) developing efficient methods for unstructured texts semantic indexing. The purpose of this study concerns this third approach by attempting to analyze topic models three investigation ways:
1. What is the feasibility of applying the topic models as texts semantic indexing for information retrieval tasks?
2. How to evaluate and interpret the topic model for semantic analysis of collection content?
3. How one can apply topic models on non-English unstructured text (Arabic as a study case)?
The main contribution in this study can be summarized as follows:
1. Analyzing and evaluating of the Latent Dirichlet Allocation model in text categorization and search tasks on several real word corpora.
2. Introducing a novel measure based on the Kullback-Leibler divergence for setting latent topics learning from a given collection.
3. Developing a new lemma-based stemming for Arabic text analysis and indexing.
4. Building three Arabic texts corpora from press articles published during 2007-2010 period for retrieval tasks evaluation.
Moreover, the generated document models, by the latent Dirichlet allocation in reduced topic spaces, have been successfully applied in search and text categorization. Furthermore, we have shown that semantic indexing, in highly inflected language such Arabic, is more effective when considering morphological features and typographical variations.
Keywords:
Information retrieval, semantic indexing, topic model, text categorization, Arabic text analysis, evaluation measures, test corpora.
Contribution à la Recherche Intelligente sur le Web :
Indexation Sémantique des Textes Non-Structurés.
Résumé (Fr):
Depuis sa promotion au grand public au début des années 1990, le Web a connu une croissance extraordinaire aussi bien dans son contenu que dans son utilisation. Malheureusement, la nature non-structurée, des larges volumes d’information disponibles sur la toile mondiale, a rendu de plus en plus difficile de cibler et retrouver l’information pertinente. Dans les systèmes classiques de recherche d’information, basés sur les mots-clés, les utilisateurs trouvent souvent des difficultés à exprimer leur besoin d’information. Parmi les nouvelles approches, qui ont été proposés pour promouvoir la recherche intelligente d’information, celle introduisant la dimension sémantique dans la modélisation des documents.
La recherche sémantique sur le Web peut être réalisée selon trois approches principales :
(i) Organiser la recherche (indexation de documents et/ou analyse de requêtes) autour de connaissances conceptuelles (thésaurus ou ontologie), (ii) Utiliser un système d’annotation documenté par des experts ou une masse d’utilisateurs pour promouvoir la recherche collaborative, (iii) Développer des méthodes d’indexation sémantique des textes non-structurés. C’est dans cette dernière approche que la présente étude s’inscrit en essayant d’analyser les modèles de thèmes suivant trois axes d’investigation :
1. Quelle est la faisabilité d’utiliser un modèle de thème comme approche d’indexation sémantique des textes pour les tâches de recherche d’information ?
2. Comment évaluer et interpréter le modèle de thème pour l’analyse sémantique du contenu d’une collection ?
3. Dans quelle mesure peut-on appliquer les modèles de thème dans le texte non-structuré non-anglais (l’arabe comme exemple d’étude) ?
Comme contribution majeure dans cette étude, il intéressant de citer :
1. L’analyse et l’évaluation du modèle d’allocation latente de Dirichlet dans les tâches de recherche et de catégorisation des textes sur des corpus réels.
2. La proposition d’une nouvelle mesure, à base de la divergence de Kullback-Leibler, pour le paramétrage de l’apprentissage des thèmes dans une collection donnée.
3. Le développement d’un nouvel algorithme de stemming à base de lemme pour l’analyse et l’indexation du texte arabe.
4. L’élaboration de trois collections arabes, à base d’articles de presse relatifs à la période 2007-2010, pour les expérimentations de tâches de la recherche d’information.
Par ailleurs, les modèles de documents générés, par l’allocation latente de Dirichlet dans un des espaces réduits de thèmes, ont été utilisés efficacement dans la catégorisation des textes et la recherche ad-hoc. En plus, nos travaux ont montré l’efficacité de considérer les aspects morphologiques et les variations typographiques dans l’indexation sémantique des langues hautement flexionnelles telles que l’arabe.
Mots clé :
Recherche d’information, indexation sémantique, modèle de thème, catégorisation des textes, analyse du texte arabe, mesures d’évaluation, collections de test.