La reconnaissance vocale

“Toute technologie suffisamment avancée est indiscernable de la magie”, a un jour écrit Arthur C. Clarke, auteur britannique de science-fiction. L’essor fulgurant des technologies d’informatisation vocale en est la preuve. Cela ressemble à un tour de magie : lancez quelques mots à la volée et un appareil à proximité exaucera vos vœux.

La reconnaissance vocale, qu’est-ce que c’est ?


D’après la définition de Wordreference, “ Souvent improprement appelée reconnaissance vocale, la reconnaissance automatique de la parole est une technique informatique qui permet d’analyser la parole captée au moyen d’un microphone.”

Cela amènerait-il a une révolution des interfaces ? (Interface = zone de communication entre l'homme et la machine)


Et comment ca fonctionne ?

La phrase prononcée est enregistrée et numérisée, puis donnée au programme de reconnaissance vocale. Schématiquement, le programme peut être découpé de la manière suivante:

  • Un traitement acoustique , qui permet d’extraire du signal vocal reçu une image acoustique compacte, et la numériser.
  • Puis la mise en association des segments de parole avec leurs éléments lexicaux correspondants, par l’apprentissage automatique.
  • Enfin en se basant sur ce résultat, le décodage qui tente de reconstituer la phrase la plus probable. Une correspondance de motif temporelle est appliquée pour ce faire.

Le système de reconnaissance vocale est traité par un algorithme qui combine ensemble trois modèles:

  • Le modèle de langage: la probabilité de chaque suite de mots.
  • Le modèle de prononciation: la probabilité de chaque prononciation possible.
  • Le modèle acoustico-phonétique: la probabilité de chaque prononciation possible d’une séquence de mots lorsque transcrite en vecteurs acoustiques.

Et le système retient le résultat le plus probable après traitement de ces 3 modèles.






La technologie de la reconnaissance vocale n’est pas facile à développer bien qu’elle soit dans les cartons des visionnaires depuis longtemps.

Elle est cependant suffisamment mûre aujourd’hui pour être exploitée, avec des résultats très probants en diction, et des réponses de requêtes qui s’approchent des performances du moteur de recherche google par clavier.

La reconnaissance vocale est une alternative intégrée à nos technologies actuelles (smartphone, ordinateur) qui ambitionne de devenir l’interface par défaut de nos technologies futures.

Un futur déjà à nos portes avec le déploiement imminent de la 5G qui va permettre le développement en masse des objets connectés.


Quelle tendance de consommation pour les 2 prochaines années ?

D’après Gartner et Edison, si 7% des foyers américains étaient équipés d’un assistant vocal début 2017, ce chiffre devrait passer à 75% d’ici la fin 2020 ! Une croissance qui ferait du x10 en 4 ans. Le modèle Gartner prédit aussi que 20% des foyers en possèderont 2 , et 5% 3 ou plus.