Reconnaissance vocale : l’IA égale l’humain une nouvelle fois

La NSA est déjà à 0 % d'erreur

Pour la seconde fois, Microsoft annonce que son IA fait aussi bien qu'un humain dans la reconnaissance vocale. Une manière de répondre à IBM qui affirmait le contraire il y a peu de temps. Si les deux concurrents se livrent une bataille pour quelques pouièmes de pour cent, elle ne doit pas cacher la réalité : il reste encore beaucoup de travail.

L'intelligence artificielle est largement utilisée dans de nombreux domaines depuis plusieurs dizaines d'années maintenant. La reconnaissance vocale est l'un d'eux, et elle ne cesse de progresser au fil du temps. De nos jours, on l'utilise régulièrement avec les assistants numériques d'Amazon, d'Apple, de Google et de Microsoft pour ne citer que ces quatre-là.

Reconnaissance vocale : les ordinateurs veulent faire aussi bien que les humains

Afin de mesurer les performances des systèmes de reconnaissance vocale, et aussi les comparer les uns aux autres, les chercheurs peuvent utiliser le Speaker Recognition Evaluation (SRE) du National Institute of Standard and Technology (NIST).

Il comprend plusieurs milliers de conversations téléphoniques pour un total de près de 150 heures d'enregistrement (4,31 Go). Sur le benchmark Switchboard, Microsoft annonce avoir atteint un taux d'erreur de 5,1 %, en baisse de 12 % par rapport au mois d'octobre dernier (le taux était alors de 5,9 %).

Le but reste le même : faire toujours mieux et réussir à égaler, ou dépasser, un humain. Microsoft et IBM se livrent d'ailleurs une guerre de communication sur ce sujet depuis plusieurs mois. Ainsi, pour la seconde fois en l'espace d'un an, Microsoft revendique faire aussi bien qu'un humain, une affirmation qui avait été réfuté par IBM la première fois.

Quand Microsoft prend IBM à son propre jeu

Le 18 octobre 2016, Microsoft annonçait fièrement avoir « atteint la parité » avec un humain dans la reconnaissance vocale. « Le taux d'erreur de 5,9 % est à peu près égal à celui des personnes qui ont été invitées à transcrire les mêmes conversations » expliquait alors le géant du Net. Il ajoutait que c'était alors le score « le plus bas jamais enregistré » sur le test de reconnaissance vocale utilisé dans le cas présent (Switchboard).

En mars de cette année, il était par contre dépassé par IBM qui revendiquait à son tour un « nouveau record » avec un taux d'erreur de 5,5 %, soit 0,4 point de mieux. La société expliquait par contre qu'elle n'était pas arrivée au niveau d'un humain, et en profitait pour tacler son concurrent au passage : « Atteindre la parité humaine, c'est-à-dire un taux d'erreur à égalité avec celui de deux humains discutant, a longtemps été le but ultime de l'industrie. D'autres poursuivent également ce but, et certains ont récemment affirmé avoir atteint 5,9 %, un score équivalent à la parité humaine ».

Avec 5,5 %, IBM « ne sabre pas encore le champagne » et s'explique : la parité humaine ne se situerait pas à 5,9 % ou à 5,5 %, mais à 5,1 %. Bref, selon les tests d'IBM, aucune intelligence artificielle n'était en mesure d'égaler un humain en mars de cette année. Le taux d'erreur de 5,1 % annoncé aujourd'hui par Microsoft lui permet donc de revendiquer la couronne... pour la seconde fois.

Petites variations sur les protocoles

La question est maintenant de savoir si l'on peut se fier aux chiffres concernant le taux d'erreur d'un humain. Dans ce document, Microsoft retrace un peu son historique. En 1997, Lippman annonçait environ 4 %, mais sans avancer de données expérimentales. En 2010, il était question de 4,1 à 4,5 % selon le Linguistic Data Consortium (LDC). Vient ensuite Microsoft avec 5,9 % en 2016 et enfin IBM avec 5,1 % en 2017.

Historique des taux d'erreur au test Switchboard (SWB) - Crédit image : Microsoft

Des scores différents qui peuvent s'expliquer de plusieurs manières : le facteur humain déjà (une même personne n'aura pas forcément le même résultat en faisant plusieurs fois le même exercice), la différence de performance entre les transcripteurs et les conditions des tests. Par exemple, à l'aide de plusieurs transcriptions indépendantes, IBM a sélectionné les meilleurs transcripteurs pour obtenir le score de 5,1 %, ce qui peut expliquer – au moins en partie – la différence avec les 5,9 % de Microsoft. Mais d'autres transcripteurs pourraient obtenir des scores encore plus faibles. Bref, il s'agit plus d'un indicateur que d'une donnée exacte.

Si l'on parle de quelques points d'écart pour les humains, les ordinateurs ont pour leur part gagné des dizaines de points en l'espace de 20 ans. Durant cette période, le taux d'erreur est passé de plusieurs dizaines de pour cent pour arriver à 5,1 % seulement. Bien évidemment, les machines peuvent encore progresser et ainsi largement (et sans contestation) dépasser les humains dans les prochaines années.

Qu'en est-il de la compréhension du texte ?

Microsoft reste lucide sur les capacités de son intelligence artificielle. La société ajoute en effet qu'elle doit encore progresser pour arriver au niveau des humains dans de nombreuses situations : environnements bruyants, micros éloignés de l'orateur, discours prononcés avec un fort accent, etc. Le problème étant que les données disponibles pour l'apprentissage de l'IA dans ces conditions sont limitées. Or, comme nous n'avons de cesse de le répéter, pour qu'une IA soit performante, il faut l'entrainer avec des quantités astronomiques de données.

Rappelons enfin qu'il ne s'agit que de retranscrire des mots, pas de les comprendre... et sur ce point il reste encore beaucoup de travail, précise sans détour Microsoft. « Passer de la reconnaissance à la compréhension du discours est la prochaine grande frontière » indique ainsi le père de Cortana en guise de conclusion.

Snapdragon X : Qualcomm tricherait dans ses benchmarks

11:30 0

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

09:10 3

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

08:04 1

Ubuntu 24.04 LTS disponible en version finale

08:00 1

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

07:45 5

Commentaires (27)

Silences

Le 22/08/2017 à 12h 34

A quand le logiciel qui permettra de détecter les gays à l’intonation de la voix?

wanou2 Abonné

Le 22/08/2017 à 12h 37

A quand un bon logiciel de reconnaissance vocale pour taper un texte. Parce que je trouve que cette fonction est encore aujourd’hui très médiocre. La correction contextuelle qui est faite améliore nettement la qualité de la reconnaissance mais c’est pas folichon sans ça.

Anonyme_f7d8f7f164fgnbw67p

Le 22/08/2017 à 12h 38

Ils ont mis leur IA nazie dans un meeting de Trump, normal qu’elle ait tout compris

Letter Abonné

Le 22/08/2017 à 12h 45

Dragon Naturally Speaking était déjà bien il y a 10 ans, je pense que maintenant, ça doit être rôdé pour cet usage.

OlivierJ Abonné

Le 22/08/2017 à 12h 46

Ayant tendance à parler plutôt vite, je dois ralentir très nettement mon débit pour être correctement retranscrit par mon téléphone (Android récent), là où un humain me comprend. Donc à mon sens il y a encore pas mal de progrès à faire dans la reconnaissance vocale, même si à débit lent c’est pas mal du tout, et que ça reconnaît parfois des noms propres peu courants. A l’inverse, la transcription est parfois juste phonétiquement et assez drôle à lire.

MoonRa

Le 22/08/2017 à 12h 47

Quand leur IA pourra piger certain accent Irlandais là je serais étonnés. 

De nos jours, on l’utilise régulièrement avec les assistants numériques d’Amazon, d’Apple, de Google et de Microsoft pour ne citer que ces quatre-là.

 " />

kosame

Le 22/08/2017 à 12h 48

J’ai des doutes sur la qualité des textes utilisés pour la reconnaissance. Celui là doit pas passer le 1% de reconnaissance :

  https://www.wordetweb.com/word-et-web/HUMOUR-papous-pas-a-poux-papous-pas-papa-a-poux-papous-epoux-FR.htm

ColinMaudry

Le 22/08/2017 à 12h 58

Je pense qu’il s’agit ici exclusivement de reconnaissance de la langue anglaise. Mais effectivement, balèze " />

WereWindle

Le 22/08/2017 à 13h 01

tu lui passes l’intégrale de Devos à ton IA

Sans intérêt Abonné

Le 22/08/2017 à 13h 03

#10

La société ajoute en effet qu’elle doit encore progresser pour arriver au niveau des humains dans de nombreuses situations : environnements bruyants, micros éloignés de l’orateur, discours prononcés avec un fort accent, etc. Le problème étant que les données disponibles pour l’apprentissage de l’IA dans ces conditions sont limitées.

Voici une affirmation étonnante : je n’aurais pas cru que l’on manquait de telles données.

En effet, outre la transcription de films et séries, il existe aussi de nombreuses transcriptions de directs à la télévision (certaines chaînes sont particulièrement attentives sur ce point), prêtes à l’emploi, ou, à défaut, prêtes à être retranscrites encore une fois. Par ailleurs, ce ne sont pas les services de vidéo remplies de vidéos amateur en accès public qui manquent, avec des qualités d’enregistrement extrêmement variables. Dont des “environnements bruyants, micros éloignés de l’orateur, discours prononcés avec un fort accent, etc.”

Certes, cela suppose qu’il soit tout de même possible de retranscrire des phrases effectivement inaudibles et non identifiables par des humains, afin d’entraîner l’IA sur celles-ci en particulier.

fusion_sadam

Le 22/08/2017 à 13h 16

#11

Sans intérêt a écrit :

Voici une affirmation étonnante : je n’aurais pas cru que l’on manquait de telles données.

En effet, outre la transcription de films et séries, il existe aussi de nombreuses transcriptions de directs à la télévision

c’est jamais exact au mot près, voir il y’a des mot en plus qui décrivent les scènes genre bruit de porte.

Si les données ne sont pas fiable à 100% l’apprentissage machine atteint un palier infranchissable car il y’a des contradictions.

Et pour bien faire il faudrait  des milllions de conversation chacune répéter avec moulte accent/age/sexe/condition différentes (et pour chaque langue).

Une telle base n’existe pas (pas encore en tout cas)

anonyme_6d3c8325027b08b8beb8eb7f143f3660

#12

moi je veux une ia qui comprenne brad pitt dans snatch

#13

doublon

127.0.0.1

Le 22/08/2017 à 13h 17

#14

Microsoft reste lucide sur les capacités de son intelligence artificielle. La société ajoute en effet qu’elle doit encore progresser pour arriver au niveau des humains dans de nombreuses situations

Les humains eux-même doivent progresser…

" />

Le 22/08/2017 à 13h 18

#15

darkbeast a écrit :

moi je veux une ia qui comprenne brad pitt dans snatch

qu’est-ce qui empêcherait cette IA de dominer le monde plutôt que de traduire ce que dit Mickey ? avec le niveau de développement qu’elle aurait… " /> " />

Cacao Abonné

Le 22/08/2017 à 13h 26

#16

" />

Le 22/08/2017 à 13h 28

#17

Je ne sais pas si tu as testé beaucoup de solutions mais j’utilise juste la reconnaissance vocale de mon téléphone (pour SMS j’entends) et ça marche plutôt bien, ponctuation comprise. Juste les mots franglais sont plus compliqués mais c’est sans doute logique.

Le 22/08/2017 à 13h 34

#18

L’évolution en ce sens est quand même assez flagrante. La récente mise à jour de Google Assistant est saisissante. Tant en termes de reconnaissance que de compréhension. Même si beaucoup de questions se soldent par un “Désolé mais je ne comprends pas”, elles sont quasi tout le temps bien écrites (parfois la reconnaissance se trompe et corrige le mot, sans doute grâce au deep learning) et apporte une réponse très souvent correcte. Même en environnement un peu bruyant (comme dans la voiture). D’ailleurs, l’interconnexion avec de la domotique devient enfin très pratique, en tous cas pour mon cas qui l’utilise beaucoup pour contrôler mes lumières.

Alors peut-être que ça ne rivalise pas avec un humain (ça se voit d’ailleurs) mais les progrès sont concrets et rapides.

sephirostoy Abonné

Le 22/08/2017 à 14h 17

#19

Il y a besoin d’un logiciel pour ça ? " />

alex.d. Abonné

Le 22/08/2017 à 14h 24

#20

Comment ils font pour évaluer le taux d’erreur des humains ? Ça a été évalué par un humain ? (qui lui même fait des erreurs ?)

 

crocodudule

Le 22/08/2017 à 14h 30

#21

wanou2 a écrit :

A quand un bon logiciel de reconnaissance vocale pour taper un texte. Parce que je trouve que cette fonction est encore aujourd’hui très médiocre. La correction contextuelle qui est faite améliore nettement la qualité de la reconnaissance mais c’est pas folichon sans ça.

Dans un labo avec un supercalculateur ils disent avoir fait des progrès. Dans la réalité de nos ordinateurs du quotidien ca reste très moyen, voire difficilement exploitable professionnellement même après la phase d’apprentissage je trouve, du moins s’agissant du dernier test que j’ai fait avec dragon naturally speaking l’an dernier.

Le 22/08/2017 à 15h 12

#22

letter a écrit :

Dragon Naturally Speaking était déjà bien il y a 10 ans, je pense que maintenant, ça doit être rôdé pour cet usage.

crocodudule a écrit :

Dans un labo avec un supercalculateur ils disent avoir fait des progrès. Dans la réalité de nos ordinateurs du quotidien ca reste très moyen, voire difficilement exploitable professionnellement même après la phase d’apprentissage je trouve, du moins s’agissant du dernier test que j’ai fait avec dragon naturally speaking l’an dernier.

Le niveau d’exigence n’est pas le même pour tout le monde ;)

Z-os Abonné

Le 22/08/2017 à 17h 01

#23

Tu relèves dix copies différentes d’un niveau correct sur le même travail et tu compares les différences de transcription. Le travail sera moins fastidieux.

Cetera

Le 22/08/2017 à 17h 13

#24

https://www.google.fr/url?sa=t&source=web&rct=j&url=%23&ved=0ahUKEwiLnMqBq-vVAhXFIcAKHWu0CTUQwqsBCCEwAQ&usg=AFQjCNF1sHlk2z9QIx28jtvfnGP_UlkifA

À méditer..

Ricard

Le 22/08/2017 à 18h 25

#25

Silences a écrit :

A quand le logiciel qui permettra de détecter les gays à l’intonation de la voix?

Facile. Si la voix est plutôt féminine, c’est bon." />

Je précise que Vendredi je suis pas dispo." />

Le 22/08/2017 à 18h 26

#26

darkbeast a écrit :

moi je veux une ia qui comprenne brad pitt dans snatch

Et le marseillais." />

Ler van keeg

Le 23/08/2017 à 07h 25

#27

OlivierJ a écrit :

Ayant tendance à parler plutôt vite, je dois ralentir très nettement mon débit pour être correctement retranscrit par mon téléphone (Android récent), là où un humain me comprend. Donc à mon sens il y a encore pas mal de progrès à faire dans la reconnaissance vocale, même si à débit lent c’est pas mal du tout, et que ça reconnaît parfois des noms propres peu courants. A l’inverse, la transcription est parfois juste phonétiquement et assez drôle à lire.

Pour éviter une transcription phonétique bête et méchante, ce n’est pas simple.

C’est le même problème que la traduction.

Aujourd’hui, ça se base sur des probabilités, des estimations, des comparaisons (deep learning) avec des bases de données énormes, d’où une bonne amélioration par rapport à il y a 10 ans.

Mais tant qu’une I.A. n’a pas de compréhension du sens des mots, des phrases et du contexte global, ça continuera à sortir régulièrement n’importe quoi. C’est normal.

Reconnaissance vocale : l’IA égale l’humain une nouvelle fois

La NSA est déjà à 0 % d'erreur

Reconnaissance vocale : les ordinateurs veulent faire aussi bien que les humains

Quand Microsoft prend IBM à son propre jeu

Petites variations sur les protocoles

Qu'en est-il de la compréhension du texte ?

Tiens, en parlant de ça :

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Qui donnera du grain avarié à moudre aux nouvelles IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Artificial Ideology

Sommaire de l'article

Introduction

Reconnaissance vocale : les ordinateurs veulent faire aussi bien que les humains

Quand Microsoft prend IBM à son propre jeu

Petites variations sur les protocoles

Qu'en est-il de la compréhension du texte ?

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

#Flock craque le slip et explose les quotas

Snapdragon X : Qualcomm tricherait dans ses benchmarks

Grindr visé par une plainte pour avoir partagé des données, dont le statut VIH, de ses utilisateurs

La FCC rétablit la réglementation sur la neutralité du net aux États-Unis

Ubuntu 24.04 LTS disponible en version finale

OVHcloud dévisse de près de 30 % en bourse après l’annonce de ses résultats

Commentaires (27)