Un assistant personnel virtuel (APV), aussi appelé assistant personnel intelligent (en anglais, intelligent personal assistant ou virtual assistant) est une solution logicielle qui joue le rôle d’un agent virtuel capable d’effectuer plusieurs tâches ou services pour une personne (Imrie and Bednar, 2013). Il peut faire des tâches simples comme jouer de la musique, ajouter quelque chose sur une liste ou appeler quelqu’un, afficher régulièrement les nouvelles, vérifier l’agenda, lire les nouveaux mails, etc. Même, il peut faire d’autres tâches très évoluées comme le contrôle et l’interrogation des dispositifs intelligents d’une maison (smart home), comme par exemple, varier l’intensité de la lumière, fermer une fenêtre ou baisser le volet.
Les tâches et les services effectués par l'APV sont basés sur les entrées fournies par l'utilisateur, la connaissance de l'emplacement de l'utilisateur, les données historiques conservées par l'assistant et la possibilité d'accéder à des informations à partir d'une variété de sources en ligne (Roca et al., 2019).
L’utilisateur peut communiquer avec ces APV en utilisant :
- du texte (chat en ligne), particulièrement dans une application de messagerie instantanée ou d'autres applications ;
- la voix, l’utilisateur fait des conversations avec cet assistant virtuel ;
- ou en prenant et/ou téléchargeant des images.
Dans le marché, il existe une variété d’applications (par exemple, Assistant Google[1], Siri, Alexa[2], Cortana[3], etc.) développées en faveur de plusieurs langues (par exemple, l’anglais, le français, etc.). La langue arabe classée comme étant la cinquième langue parlée dans le monde n’a été prise en considération que par quelques applications (par exemple, Assistant Google) avec une faible performance vu qu’elles traitent uniquement la forme standard de cette langue qui est utilisée seulement dans les documents administratifs.
Les Arabes utilisent l’arabe dialectal pour communiquer entre eux, donc il sera bénéfique, s’ils peuvent communiquer avec un APV en utilisant leurs langues maternelles (l’arabe dialectal).
Dans ce contexte et dans le cadre d'un projet de recherche POSTDoc, nous avons proposé de créer un prototype d’assistant personnel virtuel qui permet d’interagir avec les locuteurs arabes en utilisant leurs dialectes. Nous envisageons de développer un APV en faveur du dialecte tunisien. Cette solution logicielle permet de faire des tâches basiques (lecture des mails, lancement des applications, lecture de la musique, etc.) qui facilite et aide le jeune dirigeant d’une entreprise (par exemple) de faire les tâches administratives journalières via une seule application.
L’objectif de ce projet est de construire un prototype d’assistant personnel virtuel (une application mobile) permettant d’interagir et dialoguer avec un utilisateur en utilisant le dialecte tunisien. Il doit comprendre les commandes de l’utilisateur et les analyser afin de fournir ou accomplir la tâche demandée par l’utilisateur. Cet assistant personnel virtuel doit être capable de comprendre les commandes vocales de l’utilisateur, les analyser et générer une réponse vocale en effectuant les tâches demandées (par exemple, lancer une application). Les tâches réalisées par notre prototype seront des tâches basiques par exemple : lancement d’application, consultation mail, rédaction d’un mail, etc.
Pour réaliser un prototype d’APV en faveur du dialecte tunisien, ces modules ont été proposés par (Këpuska and Bohouta, 2018) :
- Reconnaissance vocale (ASR) : ce module permet de reconnaitre et transcrire les commandes de l’utilisateur d’un AVP.
- Compréhension de commandes (SLU) : ce module permet d’analyser le texte de commandes afin de générer une réponse à la demande de l’utilisateur ou d’effectuer une tâche.
- Gestionnaire de dialogue (DM) : ce module permet de gérer les conversations entre l’assistant et l’utilisateur.
- Génération des réponses (NLG) : ce module permet de formuler les réponses.
- Text-to-speech (TTS) : ce module permet de convertir le texte en parole.
Nous nous sommes basés sur l’architecture proposée par (Këpuska and Bohouta, 2018) pour implémenter l’assistant personnel pour le dialecte tunisien. Dans une première étape, nous avons proposé d’implémenter un module de reconnaissance vocale en suivant l’approche de l’apprentissage profond (Deep Learning). Nous avons proposé d’appliquer l’architecture de DeepSpeech (Amodei et al., 2015) pour le dialecte tunisien en utilisant un ensemble de transcriptions pour générer le modèle correspondant. Dans une deuxième étape, nous avons créé un corpus de transcriptions mono voix en dialecte tunisien pour générer un modèle pour la synthèse vocale. Nous avons adapté l’architecture d’apprentissage profond « Tacotron » proposée (Wang et al., 2017). Enfin, pour les trois modules restants à savoir : la compréhension des commandes, le gestionnaire de dialogue et la génération de réponses, nous avons utilisé la plateforme « rasa[4] ». À travers cette dernière et un ensemble de requêtes d’un utilisateur, nous avons généré les modèles correspondants. Dans la littérature, nous distinguons quelques applications APV libres et open source. Ainsi, nous avons proposé de se baser sur l’assistant « Open Jarvis[5] » afin de l’adapter au dialecte tunisien en ajoutant les modèles générés et en les paramétrant suivant nos besoins.
[1] https://assistant.google.com/intl/fr_fr/
[3] https://support.microsoft.com/en-us/topic/what-is-cortana-953e648d-5668-e017-1341-7f26f7d0f825
Mon sujet de thèse est intitulé "Traitement automatique du dialecte tunisien : construction de ressources linguistiques".
Cette thèse comporte principalement deux grandes tâches : l’acquisition des ressources pour le dialecte tunisien (transcription et annotation de corpus) et l’adaptation des outils de l’arabe standard moderne pour traiter le dialecte tunisien.
Au niveau de l’acquisition des ressources pour le dialecte tunisien, il s’agit de collecter les données oraux :(enregistrer des conversations entre des personnes, télécharger les enregistrements audio, etc.), de les transcrire et de les annoter (annotation morphosyntaxique, annotation des disfluences, etc.). Au niveau de la deuxième tâche, il s’agit d’adapter les outils de traitement de l’arabe standard moderne nécessaire pour l’analyse linguistique du dialecte tunisien en résolvant les problèmes dus au caractère spontané des productions orales telles que les hésitations, les répétitions, les allongements vocaliques et autres manifestations qui apparaissent grâce à la transcription du discours oral.
Cette thèse a été dirigée par Mme. Lamia Hadrich Belguith (FSEGS, Université de Sfax- Tunisie) et M. Philippe Blache (Aix-Marseille université - France) et co-dirigée par Mme. Mariem Ellouze Khemakhem (ESCS, Université de Sfax - Tunisie).
Mon travail de mastère est intitulé "La reconnaissance des entités nommées pour la résolution des anaphores pour l'arabe". Il s'agit de proposer une méthode hybride pour la reconnaissance des entités nommées pour la langue arabe. Cette méthode profite, d’une part, des avantages de l’utilisation d’une méthode d’apprentissage pour extraire des règles permettant l’identification et la classification des entités nommées. D'autre part, elle repose sur un ensemble de règles extraites manuellement pour corriger et améliorer le résultat de la méthode d’apprentissage. Les résultats de l’évaluation de la méthode proposée sont encourageants. Nous avons obtenu un taux global de F-mesure égal à 79.24%. Ce sujet de mastère est dirigé par Mme. Lamia Hadrich Belguith (FSEGS, Université de Sfax- Tunisie) et Mme. Souha Mezghani Hammami (IHECS, Université de Sfax- Tunisie).