la détection de distraction des conducteurs

1 Introduction:

Actuellement, le web est le monde digitale est en possession d'immense quantité d'images

numérisés venant de multiples applications généraliste, médicale, robotique, biométrie,

surveillance, etc. Afin de prendre avantage de ces données nous avons besoin de comparer

ces images. Cette comparaison s'opère à partir d'une représentation structuré, les matrices des

pixels sont une première représentation mais qui est très peu robustes aux variations de la

luminosité, l'échelle, l'occlusion, la rotation, etc. Sinon les images peuvent être représenté par

des descripteurs tel que L'ancêtre du CBIR : histogramme de couleur..., filtrage d'images,

convolutions, points d'intérêts, paradigme "Bag of Visual Words" (sac de mot visuels). Ces

représentation peuvent conduire les classifieurs des images vers différentes solutions. Mais

ces derniers années, l'apprentissage profond fait le buzz. En 2012, la communauté du Machine

Learning a été surprise par le Google Brain qui est capable de découvrir des concepts de haut

niveau tel que des visages, des images de chats, etc. en ce basant sur l'apprentissage par des

millions d’images de YouTube. L'apprentissage profond est depuis le sujet le plus demandé

dans les conférence de vision par machine, les numéros spéciaux des revues et même dans le

offres d'emploi. Il permet d'opérer directement sur les images sans avoir besoin de passer par

des algorithmes et des filtres pour la représentation structurée des images, ni le recours au

expertise humaines pour l'extraction des caractéristiques pertinentes. Dans ce rapport, nous

présentons une application de l'apprentissage profond dans la classification d'images. Cette

application s'adresse à la détection de la distraction des conducteurs au volant.

2 État de l'art et analyse :

2.1 Réseau de neurone convolutif pour un apprentissage profond:

L’apprentissage profond a permis de faire des progrès importants dans les domaines de la

reconnaissance d'images et du traitement du langage par exemple. Ils sont bâtis sur le même

modèle que les perceptrons multicouches (les différentes couches intermédiaires sont plus

nombreuses). Les couches intermédiaires sont subdivisées en sous partie, traitant un sous

problème plus simple et fournissant le résultat à la couche suivante, et ainsi de suite. Cette

manière d'ordonner les déductions font que les modèles d'apprentissage profond se

rapprochent au fonctionnement du cerveau humain, en ajoutant au fur et à mesure un contexte

de plus en plus précis au sujet sur lequel le modèle opère.

Malgré que l'apprentissage profond est un axe de recherche récent, mais il attire beaucoup

d'attention. Il existe différents algorithmes d'apprentissage profond. Nous pouvons ainsi citer :

Les réseaux de neurones profonds (Deep Neural Networks) : Ces réseaux ont un

grand nombre de couches cachées. L'augmentation du nombre de couches, permet à un

réseau de neurones de détecter de légères variations du modèle d'apprentissage,

favorisant le sur-apprentissage ou sur-ajustement (« overfitting »).

Les réseaux de neurones convolutionnels (CNN ou Convolutional Neural

Networks). Le problème est divisé en sous parties, et pour chaque partie, un « cluster »

de neurones sera créer afin d'étudier cette portion spécifique. Par exemple, pour une

image en couleur, il est possible de diviser l'image sur la largeur, la hauteur et la

profondeur (les couleurs).

La machine de Boltzmann profonde (Deep Belief Network) : Ces algorithmes

fonctionnent suivant une première phase non supervisée, suivi de l'entrainement

classique supervisé. Cette étape d'apprentissage non-supervisée, permet, en outre, de

faciliter l'apprentissage supervisé.

2.2 Applications de l’apprentissage profond

Ainsi, en entraînant par apprentissage profond des algorithmes de reconnaissance faciale sur

200 millions d’images de visages, le système FaceNet de la société Google obtient un taux

d’identification correcte de 99,63 p. 100. Le nombre d’applications potentielles de

l’apprentissage profond est immense. C’est la raison pour laquelle cette méthode

d’apprentissage s’est imposée ces dernières années. Ces techniques permettent d’améliorer la

reconnaissance d’images en général et de créer des applications pour

la biométrie (reconnaissance d’empreintes digitales ou d’iris), la médecine (avec, par

exemple, le diagnostic de mélanomes à partir d’images de grains de beauté et l’analyse de

radiographies), la voiture autonome (reconnaissance d’obstacles, de véhicules, de panneau de

signalisation, etc.), par exemple. Elles permettent aussi d’améliorer la reconnaissance de la

parole, avec des systèmes comme Siri, ou le profilage des individus, pour la recommandation

et la publicité ciblée, ou encore les logiciels de jeux, comme on l’a vu en mars 2016 lorsque le

programme informatique AlphaGo l’a emporté sur Lee Sedol, l’un des meilleurs joueurs

mondiaux de go, en ayant fait appel à de l’apprentissage profond et à de l’apprentissage par

renforcement. Enfin, et surtout, les techniques d’apprentissage supervisé aident à anticiper le

futur sur la base du passé, ce qui permet d’évaluer, avec une précision inconnue auparavant,

les risques potentiels d’investissements, d’accidents, de maladies, etc. Or, la prédiction aide à

prendre des décisions en calculant les conséquences les plus probables de chaque action. De

ce fait, les systèmes prédictifs recourant à de l’apprentissage profond jouent un rôle de plus en

plus important dans le monde contemporain où on les utilise pour trancher dans les situations

délicates à la place des hommes. C’est ce qui conduit certains à parler aujourd’hui de

« gouvernementalité algorithmique » pour évoquer, et bien souvent déplorer, une politique qui

éluderait toute responsabilité en confiant à des machines, entraînées par apprentissage profond

sur d’immenses masses de données, le soin de décider.

2.3 Limites de l’apprentissage profond

En dépit des succès impressionnants qu’ils enregistrent et des bouleversements sociaux qu’ils

induisent via les applications qui en sont faites et qui permettent de remplacer beaucoup

d’activités routinières , ces techniques souffrent d’un certain nombre de limitations qui en

restreignent les potentialités.

Les premières limitations tiennent à la grande quantité d’exemples nécessaires pour obtenir de

très bonnes performances et au besoin d’étiqueter ces exemples. Or, l’étiquetage requiert une intervention humaine très coûteuse, d’autant plus que les exemples doivent être massifs

(plusieurs centaines de milliers, voire plusieurs millions d’instances).

3 État de l'art et analyse

3.1 La distraction des conducteurs est un problème de classification:

Avec les avancements dans le monde actuel et en particulier dans les technologies des

Smartphones. Les statistiques montre que la distraction au volant est une des causes les plus

influençant dans la route et causant des accidents. La distraction impacte les compétences

nécessaire pour conduire en toute sécurité: fréquences des erreurs, amplitudes des erreurs et

variabilités des erreurs. Depuis le début des années 2000, plusieurs projets de recherches ont

été financés afin de détecter l'état du conducteur. Certaines expériences ont visées des

conducteurs jeunes, d'autres des chauffeurs, en utilisant ou pas des charges cognitives pour

distraire les conducteurs. Ces travaux peuvent être catégorisés selon plusieurs facteurs, par

exemple selon (1) le symptôme étudié : fatigue, distraction et/ou hypovigilance du

conducteur. Ou en fonction de (2) la nature du système proposé : en temps réelles ou non. Ou

selon les mesures utilisée : Mesures comportementales: Expressions faciales (Yeux,

Bouche, Tête (nez)), Mesures physiologiques: Signaux biologiques, Rythme cardiaque

(ECG), Electroencéphalographie(EEG), EOG EMG, températures. Mesures de

performances: comportement du véhicule Direction des roues, Angle du volant, Vitesse de la

voiture. La Figue 1 montre un workshart typique des systèmes proposés, ces systèmes

recherchaient les signes de la fatigue/distraction ou de l’hypovigilance, en analysant les

signaux renvoyés par des capteurs. Dans ce projet nous nous intéressant par les mesures

comportementales des conducteurs, et la contribution majeur autours du quelle une bonne

partie des publications de la littérature dans cette optique ont vu le jour, est l’analyse des

vidéos pour l'extraction des caractéristiques descriptives de l’hypovigilance. La grande

majorité des travaux ont contribué dans les techniques d'extraction des caractéristiques en

utilisant différentes techniques venant de l'apprentissage machine et\ou du traitement de

signal, ou bien des système de suivi comme faceLab, smart Eye, etc. Ces derniers sont déjà

utilisés par plusieurs compagnies automobiles tel que toyota, wolvagent, volvo...

Dans la table 1, nous résumons quelques travaux sur la détection de la distraction des

conducteurs.

Tableaux1 : comparaison entre les travaux effectués sur la détection de distraction des conducteurs.

Référence:

[1] C. Ahlstrom, K. Kircher, and A. Kircher, “A gaze-based driver distraction warning

system and its effect on visual behavior,” IEEE Trans. Intell. Transp. Syst., vol. 14, no.

2, pp. 965–973, 2013.

[2] M. MIYAJI and H. KAWANAKA, “Effect of Pattern Recognition Features on

Detection for Driver’s Cognitive Distraction,” pp. 605–610, 2010.

[3] M. H. Sigari, M. Fathy, and M. Soryani, “A driver face monitoring system for fatigue

and distraction detection,” Int. J. Veh. Technol., vol. 2013, 2013.

[4] Y. Liang, M. L. Reyes, and J. D. Lee, “Real-time detection of driver cognitive

distraction using support vector machines,” IEEE Trans. Intell. Transp. Syst., vol. 8,

no. 2, pp. 340–350, 2007.

[5] S. Darshana, D. Fernando, S. Jayawardena, S. Wickramanayake, and C. De Silva,

“Efficient PERCLOS and gaze measurement methodologies to estimate driver attention

in real time,” in Proceedings - International Conference on Intelligent Systems,

Modelling and Simulation, ISMS, 2015, vol. 2015–Septe, pp. 289–294.