- 2021 : Habilitation Universitaire
Anouar Ben Khalifa, Contribution à la vision artificielle par apprentissage profond : application à la détection des piétons et à la reconnaissance des activités humaines. Habilitation Universitaire en Génie Electrique, Université de Sousse - Ecole Nationale d’Ingénieurs de Sousse, Février 2021.
Résumé : Ce rapport de synthèse décrit mes activités de recherche dans le domaine de la vision artificielle, en mettant en évidence mes contributions scientifiques à différents niveaux depuis ma promotion au grade de Maître-Assistant en traitement d’image et signal.
La vision artificielle est actuellement l’un des principaux acteurs contribuant à l’amélioration de la qualité de vie et un facteur déterminant pour la croissance économique des pays. En effet, au cours des dernières années, la vision artificielle a connu une croissance sans précédent ; aussi bien dans l’industrie que dans la recherche. Une telle croissance a été rendue possible grâce aux capacités de calcul des unités de traitement modernes et aussi aux progrès récents de l’apprentissage automatique, en particulier l’apprentissage profond et les réseaux de neurones convolutifs. Un large éventail de domaines a bénéficié de cette croissance, nous citons le secteur juridique, le secteur sportif, les jeux vidéo, le marketing numérique, la finance, la médecine, l’industrie automobile, etc. Dans ce travail, nous nous intéressons tout particulièrement à deux axes de recherche du domaine de la vision artificielle. Ces deux axes de recherche sont répartis, dans ce manuscrit, sur deux parties. La première partie porte sur la détection automatique des piétons dans un contexte relatif aux systèmes de transport intelligents. La seconde partie traite la reconnaissance automatique des activités humaines.
Partie A : Contribution à la détection des piétons pour les systèmes de transport intelligents :
De nos jours, les systèmes de transport subissent des transformations remarquables entraînées par diverses technologies telles que les voitures connectées et les technologies basées sur l’intelligence artificielle. Ces transformations sont anthropocentriques et tentent d’offrir une satisfaction maximale à l’utilisateur avec les garanties de sécurité les plus élevées possibles. Les piétons étant les usagers de la route les plus vulnérables, leur détection fiable est une tâche cruciale. En effet, les accidents de la route représentent une cause importante de décès entraînant des milliers de blessures et de décès. À l’échelle nationale, selon des statistiques récentes en Tunisie, 11179 accidents ont eu lieu en 2018, faisant 2225 morts et 16697 blessés. Les voitures sont la première cause des accidents routiers avec 3776 accidents suivis des motos (2196 accidents) et des piétons (1995 accidents). En 2016, l’organisation mondiale de la santé a signalé que 753 piétons sont tués chaque jour dans le monde à cause des accidents de la route, soit plus de 275000 piétons meurent sur la route, ce qui représente environ 22% du nombre total de victimes de la route. En vue de diminuer ce nombre affreux de décès, le développement des systèmes de transport intelligents s’avère primordial et particulièrement les systèmes d’aide à la conduite pour la détection des piétons.
Dans ce contexte, le premier thème de recherche traite la problématique de la détection automatique des piétons sur la route à l’aide d’une caméra embarquée sur un véhicule en mouvement. Bien que les méthodes de soustraction de l’arrière-plan aient été largement appliquées pour la détection des piétons en mouvement dans un flux vidéo capturé par une caméra statique, la détection des piétons en mouvement à l’aide d’une caméra mobile demeure encore un défi insuffisamment étudié. Cela est dû à divers challenges, principalement, le mouvement propre de l’arrière-plan (ego-motion). En effet, avec le déplacement de la caméra, la scène semble en mouvement et il est alors difficile de distinguer les piétons des autres objets qui appartiennent à la partie statique de la scène. Pour cette raison, une étape de compensation du mouvement de la caméra est nécessaire. Deux principales contributions ont été présentées dans ce thème. Nous introduisons une étude sur les principaux défis auxquels sont confrontés les systèmes de détection des piétons ainsi que les méthodes proposées dans la littérature pour relever ces défis. Nous proposons également une nouvelle approche de classification des trajectoires basée sur une modélisation du mouvement de l’arrière-plan entre deux images consécutives. Le deuxième thème de recherche porte sur l’intelligence collaborative pour la détection multi-vues des piétons. Les progrès récents dans le domaine de la vision artificielle, des capteurs embarqués et de la communication véhiculaire sans fil ont considérablement accéléré le développement et le déploiement des systèmes de transport intelligents avec une efficacité de plus en plus élevée. Si ces technologies sont exceptionnellement prometteuses pour révolutionner notre mode de transport actuel et réduire le nombre d’accidents de la route, la voie vers des systèmes de transport intelligents sécurisés reste longue. Dans le cas des applications de détection des piétons, les méthodes traditionnelles de détection monoculaire ont donné de bons résultats. Cependant ces méthodes restent limitées, notamment en ce qui concerne la manipulation des occlusions. Par conséquent, un schéma de perception collaborative dans lequel les véhicules ne se limitent plus à des entrées relatives uniquement à leurs propres capteurs embarqués mais exploitent plutôt les données des capteurs placés dans leurs voisinages pour une perception plus complète de l’environnement. Dans ce thème, nous dressons une revue de littérature exhaustive liée aux systèmes de perception de l’environnement couplées avec la communication entre l’infrastructure routière et les véhicules. A l’issue de cette étude, nous proposons la première base de données qui combine des images synchronisées provenant à la fois d’une caméra mobile embarquée dans un véhicule et d’une caméra statique montée sur une infrastructure routière. Sur la base de ce jeu de données, nous proposons une nouvelle approche pour la détection des usagers de la route à l’aide d’un schéma d’intelligence collaborative entre l’infrastructure et le véhicule.
Partie B : Contribution à la reconnaissance des activités humaines :
La deuxième partie de ce manuscrit présente notre contribution à la reconnaissance automatique des activités humaines. En raison de la demande croissante d’interprétation automatique du comportement humain, la reconnaissance des activités humaines a attiré l’attention des chercheurs dans plusieurs domaines tels que la vidéosurveillance, la robotique, la réalité virtuelle, le sport, la santé, les systèmes de transport intelligents, etc. Il est évident pour un être humain d’analyser, d’interpréter et de comprendre le comportement d’une personne. Doter une machine d’une telle capacité reste encore l’un des défis des systèmes de vision artificielle en raison de plusieurs facteurs tels que : la complexité des mouvements humains, la variété des mêmes actions effectuées par des individus distincts, les conditions d’acquisition du signal, etc.
Dans ce contexte, le troisième thème de recherche porte sur la reconnaissance des actions de distraction du conducteur pour une conduite sécurisée. En effet, la distraction au volant est l’un des problèmes majeurs causant un grand nombre d’accidents de la route dans le monde. Elle est définie comme une forme de négligence ou d’inattention de la part du conducteur. Il s’agit d’un détournement de l’attention des activités essentielles pour une conduite sécurisée, vers d’autres activités secondaires. Plusieurs efforts ont été déployé pour surveiller, identifier et reconnaitre les actions de distraction du conducteur. Dans ce thème, nous intéressons à la reconnaissance des actions de distraction du conducteur dans un environnement non-contrôlé. Comme une première contribution, nous proposons la nouvelle base de données 3MDAD (Multiview, Multimodal and Multispectral Driver Action Dataset) conçue pour surmonter les limites des bases de données existantes. Cette nouvelle base de données met en évidence les enjeux observés dans un contexte de conduite naturaliste, avec de multiples utilisateurs, multiples vues, diverses actions de distraction, un arrière-plan dynamique et encombré et des conditions de luminosité variables (jour et nuit). Sur ce jeu de données, nous proposons notre seconde contribution basée sur l’apprentissage profond et les mécanismes d’attention visuelle. Nous introduisons un nouveau réseau d’attention douce et spatiale (Depth-based soft Spatial Attention network) pour la reconnaissance des actions du conducteur. Nous exploitons les données multimodales pour mettre en valeur les parties pertinentes des scènes de conduite, principalement la silhouette du conducteur, et ignorer ainsi l’arrière-plan encombré. Le quatrième thème de recherche porte sur la reconnaissance des gestes de la main en utilisant un capteur de type LMC (Leap Motion Controller). Ce capteur présente l’avantage d’offrir une interaction naturelle entre l’homme et la machine avec des données brutes présentées sous forme de séries chronologiques. Ces données contiennent une riche information temporelle permettant une meilleure description des différents gestes de la main. Dans ce thème, nous soulevons les challenges liés à la reconnaissance des gestes de la main par le capteur LMC. Nous donnons un état d’art sur les principaux travaux dans ce domaine. Deux contributions principales sont proposées : une nouvelle approche d’indexation chronologique de modèles est introduite. Cette approche permet de coder les ordres temporels des modèles pour les données de séries chronologiques des gestes de la main. Concernant la deuxième contribution, nous proposons un nouveau modèle hybride appelée Hybride Bidirectionnel Unidirectionnel LSTM (HBU-LSTM), ce modèle combine différentes variantes du réseau LSTM et permet d’explorer les dépendances spatio-temporelles des données du capteur LMC.
Les différentes contributions proposées dans ce manuscrit ont été validées sur des bases de données publiques, ont été évaluées par rapport à diverses méthodes de la littérature et ont été publiées dans des journaux scientifiques de hautes qualités.
Mots clés : Détection de piétons à partir d’une caméra en mouvement, Les systèmes de transport collaboratifs pour une détection multi-vues de piétons, Contribution à la reconnaissance des actions de distraction du conducteur, Contribution à la reconnaissance des gestes de la main avec le Leap Motion.
To download this HdR, please send a request to : anouar.benkhalifa@eniso.u-sousse.tn
- 2014 : Thèse de Doctorat
Anouar Ben Khalifa, Contribution aux techniques de fusion des modalités biométriques. Thèse de doctorat, Ecole Nationale d’Ingénieurs de Tunis, Université-Tunis Elmanar, Mars 2014.
Résumé : Face aux nombreuses limitations imposées par l’utilisation des systèmes biométriques unimodaux, la biométrie multimodale s’impose de manière indéniable comme une alternative d’avenir dans le domaine de la sécurité des personnes et leurs biens. Bien que le couplage des systèmes biométriques peut être effectué à différents niveaux, la fusion au niveau des scores est la plus courante puisqu’elle a été généralement prouvée plus efficace que le reste des niveaux de fusion. Dans cette thèse, nous nous intéressons tout particulièrement à la fusion au niveau des scores de données biométriques. La contribution majeure de cette thèse réside dans le développement d’une nouvelle approche de fusion au niveau des scores par l’intégrale de Choquet. Cette approche permet de tenir compte des éventuelles interactions qui existeraient entre les systèmes biométriques unimodaux mis en jeu à travers une méthode intelligente et adaptative de calcul des mesures floues. La fusion des scores a nécessité la normalisation des scores préalablement à leur fusion en proposant une nouvelle approche qui permet de normaliser de manière séparée les scores imposteurs et les scores clients en les ramenant dans un intervalle commun avec des étendues proches. Les expérimentations ont été effectuées sur deux systèmes multimodaux. Les résultats enregistrés montrent que la stratégie proposée de fusion au niveau des scores par l’intégrale de Choquet donne des performances très encourageants, en particulier en association avec la méthode de normalisation proposée.
Par ailleurs, le mémoire présente une étude sur la biométrie et la multimodalité. Le visage, l’empreinte palmaire, l’empreinte digitale, la signature et l’écriture manuscrites ont été particulièrement considérées. En outre, les fondements théoriques relatifs à l’intégrale de Choquet ont été rappelés.
Mots clés : Biométrie multimodale, normalisation des scores, fusion des scores, interaction des systèmes unimodaux, intégrale de Choquet, mesures floues.
- 2007 : Mastère de recherche
Anouar Ben Khalifa, Identification bimodale d’un individu à l’aide de la signature et l’écriture manuscrites hors ligne. Mémoire de mastère, Ecole Nationale d’Ingénieurs de Tunis, Université Tunis Elmanar, Juin 2007.
Résumé : L’authentification de l’écriture et de la signature manuscrites hors ligne relève du domaine de la biométrie. Le contexte d'utilisation se situe notamment dans les milieux bancaire et juridique. Dans ce cadre des problèmes, essentiellement, d'imitation et de falsification sont souvent rencontrés. Dans ce travail nous proposons une approche d'identification basée sur la fusion des deux modalités de type comportemental : la signature et l’écriture manuscrites hors ligne. L'approche développée est basée sur les ondelettes au niveau de la phase de caractérisation, les algorithmes génétiques au niveau de la sélection du jeu de caractéristiques. Pour la classification nous avons retenu les machines à vecteurs de support avec une fonction noyau de type somme RBF et KMOD.
Sur une base de données de 12000 échantillons de signatures et d’écritures, nous avons enregistré un taux de vrais rejetés égal à 1.55 %, un taux de faux acceptés égal à 2.45 %. Ainsi le taux de reconnaissance est passé de 91.03 % à 97.89 % par rapport au meilleur système unimodal. Par ailleurs, le mémoire présente une étude sur la biométrie et la multimodalité, la signature et l’écriture manuscrites ont été particulièrement considérées. En outre, les fondements théoriques relatifs aux algorithmes génétiques et aux machines à vecteurs de support ont été rappelés.
Mots clés : biométrie multimodale, identification bimodale, signature manuscrite hors ligne, écriture manuscrite hors ligne, ondelettes, AG, SVM, noyau (RBF+KMOD).
- 2005 : Projet de Fin d'Etudes (cycle ingénieur)
Anouar Ben Khalifa, Amélioration d’un système de vérification hors ligne des signatures manuscrites. Mémoire du Projet de Fin d’Etudes, Ecole Nationale d’Ingénieurs de Monastir, Université de Monastir, Juin 2005.