Theresia EL KHOURY

Sujet de thèse

Résumé

À l'ère de l'internet, la recherche d'informations spécifiques dans d'énormes quantités de données numériques est devenue un véritable défi. Certains moteurs de recherche et méthodes de recherche d'informations ont abordé ce problème, mais seuls les moteurs de systèmes de recommandation ont fourni la personnalisation de l'utilisateur nécessaire dans la plupart des domaines. Dans le domaine de l'aéronautique et de la défense en particulier, la recherche d'informations et les recommandations ne sont pas si simples. La norme S1000D utilisée pour normaliser la rédaction de la documentation technique est une norme complexe basée sur XML avec de nombreuses règles et réglementations. Jusqu'à aujourd'hui, et à notre connaissance, le seul moteur de recherche disponible pour les documents S1000D est basique et repose sur la recherche du document qui a le plus d'occurrences d'une requête. Ce résultat frustrant laisse les utilisateurs avec la même liste de documents, ayant très peu de pertinence par rapport à ce qu'ils recherchent.Cette recherche, en collaboration avec Studec, pionnier de la documentation technique, se concentre sur l'amélioration et la simplification de la recherche de documents S1000D pertinents pour les utilisateurs. Nous abordons des limitations importantes dans les recherches, y compris l'importance de la relation entre le type d'utilisateur et le type de document, en plus de la signification sémantique de la requête et du document. Tout cela se fait en préservant les règles importantes qui sous-tendent la documentation, notamment l'applicabilité complexe, la limitation de l'accès aux données et l'assurance de la sécurité. Nous avons également envisagé deux versions différentes de la norme, avec des architectures différentes.La première étape consiste à prétraiter les données pour simplifier la forme des documents à utiliser dans les modèles avancés tout en conservant le sens qui les sous-tend, y compris le filtrage de l'applicabilité. Nous avons proposé un modèle qui extrait les informations importantes nécessaires, tout en préservant leur applicabilité. Nous avons ensuite converti les deux versions de l'applicabilité en une seule forme, en les filtrant à l'aide d'arbres logiques.La deuxième partie consiste à récupérer et à recommander des documents pertinents. La phase de génération de candidats consiste à filtrer l'ensemble des données par applicabilité, puis à récupérer les documents qui sont soit similaires à la requête de l'utilisateur, soit à son historique. Les documents sont ensuite reclassés en fonction de l'importance de leur type pour le travail de l'utilisateur et de leur importance par rapport à ses recherches précédentes. Nous avons utilisé le modèle XLNet pour créer des vecteurs(embeddings) de texte pour la signification sémantique pour la première phase et créé le réseau neuronal profond avec un mécanisme d'attention pour reclasser les documents extraits en fonction de leur pertinence par rapport au travail et à l'historique de l'utilisateur. Notre modèle final est le premier modèle de recherche intelligent pour la S1000D qui s'attaque non seulement aux recherches sémantiques et floues, mais qui pondère également les documents pertinents en fonction du profil et de l'historique de l'utilisateur.

Page updated

Google Sites

Report abuse