la détection de distraction des conducteurs
1 Introduction:
Actuellement, le web est le monde digitale est en possession d'immense quantité d'images
numérisés venant de multiples applications généraliste, médicale, robotique, biométrie,
surveillance, etc. Afin de prendre avantage de ces données nous avons besoin de comparer
ces images. Cette comparaison s'opère à partir d'une représentation structuré, les matrices des
pixels sont une première représentation mais qui est très peu robustes aux variations de la
luminosité, l'échelle, l'occlusion, la rotation, etc. Sinon les images peuvent être représenté par
des descripteurs tel que L'ancêtre du CBIR : histogramme de couleur..., filtrage d'images,
convolutions, points d'intérêts, paradigme "Bag of Visual Words" (sac de mot visuels). Ces
représentation peuvent conduire les classifieurs des images vers différentes solutions. Mais
ces derniers années, l'apprentissage profond fait le buzz. En 2012, la communauté du Machine
Learning a été surprise par le Google Brain qui est capable de découvrir des concepts de haut
niveau tel que des visages, des images de chats, etc. en ce basant sur l'apprentissage par des
millions d’images de YouTube. L'apprentissage profond est depuis le sujet le plus demandé
dans les conférence de vision par machine, les numéros spéciaux des revues et même dans le
offres d'emploi. Il permet d'opérer directement sur les images sans avoir besoin de passer par
des algorithmes et des filtres pour la représentation structurée des images, ni le recours au
expertise humaines pour l'extraction des caractéristiques pertinentes. Dans ce rapport, nous
présentons une application de l'apprentissage profond dans la classification d'images. Cette
application s'adresse à la détection de la distraction des conducteurs au volant.
2 État de l'art et analyse :
2.1 Réseau de neurone convolutif pour un apprentissage profond:
L’apprentissage profond a permis de faire des progrès importants dans les domaines de la
reconnaissance d'images et du traitement du langage par exemple. Ils sont bâtis sur le même
modèle que les perceptrons multicouches (les différentes couches intermédiaires sont plus
nombreuses). Les couches intermédiaires sont subdivisées en sous partie, traitant un sous
problème plus simple et fournissant le résultat à la couche suivante, et ainsi de suite. Cette
manière d'ordonner les déductions font que les modèles d'apprentissage profond se
rapprochent au fonctionnement du cerveau humain, en ajoutant au fur et à mesure un contexte
de plus en plus précis au sujet sur lequel le modèle opère.
Malgré que l'apprentissage profond est un axe de recherche récent, mais il attire beaucoup
d'attention. Il existe différents algorithmes d'apprentissage profond. Nous pouvons ainsi citer :
Les réseaux de neurones profonds (Deep Neural Networks) : Ces réseaux ont un
grand nombre de couches cachées. L'augmentation du nombre de couches, permet à un
réseau de neurones de détecter de légères variations du modèle d'apprentissage,
favorisant le sur-apprentissage ou sur-ajustement (« overfitting »).
Les réseaux de neurones convolutionnels (CNN ou Convolutional Neural
Networks). Le problème est divisé en sous parties, et pour chaque partie, un « cluster »
de neurones sera créer afin d'étudier cette portion spécifique. Par exemple, pour une
image en couleur, il est possible de diviser l'image sur la largeur, la hauteur et la
profondeur (les couleurs).
La machine de Boltzmann profonde (Deep Belief Network) : Ces algorithmes
fonctionnent suivant une première phase non supervisée, suivi de l'entrainement
classique supervisé. Cette étape d'apprentissage non-supervisée, permet, en outre, de
faciliter l'apprentissage supervisé.
2.2 Applications de l’apprentissage profond
Ainsi, en entraînant par apprentissage profond des algorithmes de reconnaissance faciale sur
200 millions d’images de visages, le système FaceNet de la société Google obtient un taux
d’identification correcte de 99,63 p. 100. Le nombre d’applications potentielles de
l’apprentissage profond est immense. C’est la raison pour laquelle cette méthode
d’apprentissage s’est imposée ces dernières années. Ces techniques permettent d’améliorer la
reconnaissance d’images en général et de créer des applications pour
la biométrie (reconnaissance d’empreintes digitales ou d’iris), la médecine (avec, par
exemple, le diagnostic de mélanomes à partir d’images de grains de beauté et l’analyse de
radiographies), la voiture autonome (reconnaissance d’obstacles, de véhicules, de panneau de
signalisation, etc.), par exemple. Elles permettent aussi d’améliorer la reconnaissance de la
parole, avec des systèmes comme Siri, ou le profilage des individus, pour la recommandation
et la publicité ciblée, ou encore les logiciels de jeux, comme on l’a vu en mars 2016 lorsque le
programme informatique AlphaGo l’a emporté sur Lee Sedol, l’un des meilleurs joueurs
mondiaux de go, en ayant fait appel à de l’apprentissage profond et à de l’apprentissage par
renforcement. Enfin, et surtout, les techniques d’apprentissage supervisé aident à anticiper le
futur sur la base du passé, ce qui permet d’évaluer, avec une précision inconnue auparavant,
les risques potentiels d’investissements, d’accidents, de maladies, etc. Or, la prédiction aide à
prendre des décisions en calculant les conséquences les plus probables de chaque action. De
ce fait, les systèmes prédictifs recourant à de l’apprentissage profond jouent un rôle de plus en
plus important dans le monde contemporain où on les utilise pour trancher dans les situations
délicates à la place des hommes. C’est ce qui conduit certains à parler aujourd’hui de
« gouvernementalité algorithmique » pour évoquer, et bien souvent déplorer, une politique qui
éluderait toute responsabilité en confiant à des machines, entraînées par apprentissage profond
sur d’immenses masses de données, le soin de décider.
2.3 Limites de l’apprentissage profond
En dépit des succès impressionnants qu’ils enregistrent et des bouleversements sociaux qu’ils
induisent via les applications qui en sont faites et qui permettent de remplacer beaucoup
d’activités routinières , ces techniques souffrent d’un certain nombre de limitations qui en
restreignent les potentialités.
Les premières limitations tiennent à la grande quantité d’exemples nécessaires pour obtenir de
très bonnes performances et au besoin d’étiqueter ces exemples. Or, l’étiquetage requiert une intervention humaine très coûteuse, d’autant plus que les exemples doivent être massifs
(plusieurs centaines de milliers, voire plusieurs millions d’instances).
3 État de l'art et analyse
3.1 La distraction des conducteurs est un problème de classification:
Avec les avancements dans le monde actuel et en particulier dans les technologies des
Smartphones. Les statistiques montre que la distraction au volant est une des causes les plus
influençant dans la route et causant des accidents. La distraction impacte les compétences
nécessaire pour conduire en toute sécurité: fréquences des erreurs, amplitudes des erreurs et
variabilités des erreurs. Depuis le début des années 2000, plusieurs projets de recherches ont
été financés afin de détecter l'état du conducteur. Certaines expériences ont visées des
conducteurs jeunes, d'autres des chauffeurs, en utilisant ou pas des charges cognitives pour
distraire les conducteurs. Ces travaux peuvent être catégorisés selon plusieurs facteurs, par
exemple selon (1) le symptôme étudié : fatigue, distraction et/ou hypovigilance du
conducteur. Ou en fonction de (2) la nature du système proposé : en temps réelles ou non. Ou
selon les mesures utilisée : Mesures comportementales: Expressions faciales (Yeux,
Bouche, Tête (nez)), Mesures physiologiques: Signaux biologiques, Rythme cardiaque
(ECG), Electroencéphalographie(EEG), EOG EMG, températures. Mesures de
performances: comportement du véhicule Direction des roues, Angle du volant, Vitesse de la
voiture. La Figue 1 montre un workshart typique des systèmes proposés, ces systèmes
recherchaient les signes de la fatigue/distraction ou de l’hypovigilance, en analysant les
signaux renvoyés par des capteurs. Dans ce projet nous nous intéressant par les mesures
comportementales des conducteurs, et la contribution majeur autours du quelle une bonne
partie des publications de la littérature dans cette optique ont vu le jour, est l’analyse des
vidéos pour l'extraction des caractéristiques descriptives de l’hypovigilance. La grande
majorité des travaux ont contribué dans les techniques d'extraction des caractéristiques en
utilisant différentes techniques venant de l'apprentissage machine et\ou du traitement de
signal, ou bien des système de suivi comme faceLab, smart Eye, etc. Ces derniers sont déjà
utilisés par plusieurs compagnies automobiles tel que toyota, wolvagent, volvo...
Dans la table 1, nous résumons quelques travaux sur la détection de la distraction des
conducteurs.
Tableaux1 : comparaison entre les travaux effectués sur la détection de distraction des conducteurs.
Référence:
[1] C. Ahlstrom, K. Kircher, and A. Kircher, “A gaze-based driver distraction warning
system and its effect on visual behavior,” IEEE Trans. Intell. Transp. Syst., vol. 14, no.
2, pp. 965–973, 2013.
[2] M. MIYAJI and H. KAWANAKA, “Effect of Pattern Recognition Features on
Detection for Driver’s Cognitive Distraction,” pp. 605–610, 2010.
[3] M. H. Sigari, M. Fathy, and M. Soryani, “A driver face monitoring system for fatigue
and distraction detection,” Int. J. Veh. Technol., vol. 2013, 2013.
[4] Y. Liang, M. L. Reyes, and J. D. Lee, “Real-time detection of driver cognitive
distraction using support vector machines,” IEEE Trans. Intell. Transp. Syst., vol. 8,
no. 2, pp. 340–350, 2007.
[5] S. Darshana, D. Fernando, S. Jayawardena, S. Wickramanayake, and C. De Silva,
“Efficient PERCLOS and gaze measurement methodologies to estimate driver attention
in real time,” in Proceedings - International Conference on Intelligent Systems,
Modelling and Simulation, ISMS, 2015, vol. 2015–Septe, pp. 289–294.