Reconnaissance vocale : l'IA égale l'humain une nouvelle fois

La NSA est déjà à 0 % d'erreur 27
Accès libre
image dediée
Crédits : AntonioGuillem/iStock
Nouvelle Techno
Par
le mardi 22 août 2017 à 14:30
Sébastien Gavois

Pour la seconde fois, Microsoft annonce que son IA fait aussi bien qu'un humain dans la reconnaissance vocale. Une manière de répondre à IBM qui affirmait le contraire il y a peu de temps. Si les deux concurrents se livrent une bataille pour quelques pouièmes de pour cent, elle ne doit pas cacher la réalité : il reste encore beaucoup de travail.

L'intelligence artificielle est largement utilisée dans de nombreux domaines depuis plusieurs dizaines d'années maintenant. La reconnaissance vocale est l'un d'eux, et elle ne cesse de progresser au fil du temps. De nos jours, on l'utilise régulièrement avec les assistants numériques d'Amazon, d'Apple, de Google et de Microsoft pour ne citer que ces quatre-là.

Reconnaissance vocale : les ordinateurs veulent faire aussi bien que les humains

Afin de mesurer les performances des systèmes de reconnaissance vocale, et aussi les comparer les uns aux autres, les chercheurs peuvent utiliser le Speaker Recognition Evaluation (SRE) du National Institute of Standard and Technology (NIST).

Il comprend plusieurs milliers de conversations téléphoniques pour un total de près de 150 heures d'enregistrement (4,31 Go). Sur le benchmark Switchboard, Microsoft annonce avoir atteint un taux d'erreur de 5,1 %, en baisse de 12 % par rapport au mois d'octobre dernier (le taux était alors de 5,9 %).

Le but reste le même : faire toujours mieux et réussir à égaler, ou dépasser, un humain. Microsoft et IBM se livrent d'ailleurs une guerre de communication sur ce sujet depuis plusieurs mois. Ainsi, pour la seconde fois en l'espace d'un an, Microsoft revendique faire aussi bien qu'un humain, une affirmation qui avait été réfuté par IBM la première fois.

Quand Microsoft prend IBM à son propre jeu

Le 18 octobre 2016, Microsoft annonçait fièrement avoir « atteint la parité » avec un humain dans la reconnaissance vocale. « Le taux d'erreur de 5,9 % est à peu près égal à celui des personnes qui ont été invitées à transcrire les mêmes conversations » expliquait alors le géant du Net. Il ajoutait que c'était alors le score « le plus bas jamais enregistré » sur le test de reconnaissance vocale utilisé dans le cas présent (Switchboard).

En mars de cette année, il était par contre dépassé par IBM qui revendiquait à son tour un « nouveau record » avec un taux d'erreur de 5,5 %, soit 0,4 point de mieux. La société expliquait par contre qu'elle n'était pas arrivée au niveau d'un humain, et en profitait pour tacler son concurrent au passage : « Atteindre la parité humaine, c'est-à-dire un taux d'erreur à égalité avec celui de deux humains discutant, a longtemps été le but ultime de l'industrie. D'autres poursuivent également ce but, et certains ont récemment affirmé avoir atteint 5,9 %, un score équivalent à la parité humaine ».

Avec 5,5 %, IBM « ne sabre pas encore le champagne » et s'explique : la parité humaine ne se situerait pas à 5,9 % ou à 5,5 %, mais à 5,1 %. Bref, selon les tests d'IBM, aucune intelligence artificielle n'était en mesure d'égaler un humain en mars de cette année. Le taux d'erreur de 5,1 % annoncé aujourd'hui par Microsoft lui permet donc de revendiquer la couronne... pour la seconde fois.

Petites variations sur les protocoles

La question est maintenant de savoir si l'on peut se fier aux chiffres concernant le taux d'erreur d'un humain. Dans ce document, Microsoft retrace un peu son historique. En 1997, Lippman annonçait environ 4 %, mais sans avancer de données expérimentales. En 2010, il était question de 4,1 à 4,5 % selon le Linguistic Data Consortium (LDC). Vient ensuite Microsoft avec 5,9 % en 2016 et enfin IBM avec 5,1 % en 2017. 

Reconnaisance vocale IA
Historique des taux d'erreur au test Switchboard (SWB) - Crédit image : Microsoft

Des scores différents qui peuvent s'expliquer de plusieurs manières : le facteur humain déjà (une même personne n'aura pas forcément le même résultat en faisant plusieurs fois le même exercice), la différence de performance entre les transcripteurs et les conditions des tests. Par exemple, à l'aide de plusieurs transcriptions indépendantes, IBM a sélectionné les meilleurs transcripteurs pour obtenir le score de 5,1 %, ce qui peut expliquer – au moins en partie – la différence avec les 5,9 % de Microsoft. Mais d'autres transcripteurs pourraient obtenir des scores encore plus faibles. Bref, il s'agit plus d'un indicateur que d'une donnée exacte.

Si l'on parle de quelques points d'écart pour les humains, les ordinateurs ont pour leur part gagné des dizaines de points en l'espace de 20 ans. Durant cette période, le taux d'erreur est passé de plusieurs dizaines de pour cent pour arriver à 5,1 % seulement. Bien évidemment, les machines peuvent encore progresser et ainsi largement (et sans contestation) dépasser les humains dans les prochaines années.

Qu'en est-il de la compréhension du texte ? 

Microsoft reste lucide sur les capacités de son intelligence artificielle. La société ajoute en effet qu'elle doit encore progresser pour arriver au niveau des humains dans de nombreuses situations : environnements bruyants, micros éloignés de l'orateur, discours prononcés avec un fort accent, etc. Le problème étant que les données disponibles pour l'apprentissage de l'IA dans ces conditions sont limitées. Or, comme nous n'avons de cesse de le répéter, pour qu'une IA soit performante, il faut l'entrainer avec des quantités astronomiques de données.

Rappelons enfin qu'il ne s'agit que de retranscrire des mots, pas de les comprendre... et sur ce point il reste encore beaucoup de travail, précise sans détour Microsoft. « Passer de la reconnaissance à la compréhension du discours est la prochaine grande frontière » indique ainsi le père de Cortana en guise de conclusion.


chargement
Chargement des commentaires...