Des chercheurs comparent la qualité de 18 voix de synthèse à celles d‘humains

La conclusion va-t-elle vous surprendre ?

Une étude se penche sur la qualité et les performances des voix de synthèse lors de la lecture d’un long texte. Si les voix humaines arrivent en tête du classement sur de nombreux critères, les machines les talonnent. Elles parviennent même à dépasser une des voix humaines. Pour Mozilla, cela soulève plusieurs questions.

Mozilla s’est récemment fait l’écho d’une étude portant sur la qualité des synthèses vocales (ou TTS pour text-to-speech) disponibles sur le marché et de leurs performances vis-à-vis des voix humaines. Dans le cas présent, les chercheurs se sont attardés sur un point précis : l’écoute d’un long texte, cet article de Harvard Business Review (909 mots). Le contenu est politiquement neutre pour essayer autant que possible de ne pas alterer des jugements.

Les chercheurs rappellent que de nombreux comparatifs existent sur des mots, des phrases et des paragraphes, mais que c’est encore assez rare sur un long texte. Une vingtaine de voix de synthèse et humaines ont été comparées entre mi-2018 et mi-2019, via des personnes recrutées aux États-Unis sur la plateforme Amazon Mechanical Turk. Au total, 1 090 retours ont été pris en compte, payés 2,50 dollars en moyenne pour un travail d’une dizaine de minutes.

Les tests ont été effectués en anglais, probablement la langue où la synthèse vocale est la plus répandue et aussi la plus performante. Comme on pouvait s’en douter, la conclusion des chercheurs est mi-figue mi-raisin (contrairement à ce que laisse penser le titre du billet de blog de Mozilla, nous y reviendrons) : « Nous avons constaté que les voix TTS sont proches de rivaliser avec les voix humaines, mais aucune voix ne surpasse les autres dans toutes les mesures de l'évaluation ».

Les voix d’Amazon, Apple, Google, Microsoft, Mozilla…

Quelques points importants sur les conditions des tests avant de se pencher sur les conclusions. Cinq chercheurs, tous des États-Unis, ont cosigné cette publication : Julia Cambre et Jessica Colnago de la Carnegie Mellon University, Jim Maddock de la Northwestern University, ainsi que Janice Tsai et Jofish Kaye de chez Mozilla (ce qui explique notamment pourquoi la fondation s’en fait le relais).

Les 18 voix TTS de cette étude proviennent de chez Amazon Polly, Android, Google, iOS, macOS, Voicery et Windows. Trois sont de chez Mozilla : Judy, LJ Speech et Nancy. Les trois voix humaines sont celles de membres de l’équipe de recherche, chacune avec un style différent (Human 3 a par exemple un accent britannique). Des échantillons audio et des caractéristiques techniques de toutes les voix sont disponibles par ici.

TTS comparatif

Enfonçons ensuite quelques portes ouvertes : les mesures sont évidemment subjectives, chaque personne aura des affinités différentes avec les différentes voix. Multiplier le nombre de retours permet néanmoins de lisser les scores et d’établir des classements. Entre 38 et 66 personnes ont écouté chacune des 21 voix de synthèse ou humaine, avec une médiane à 50.

Une valeur souvent utilisée dans ce genre d’analyse est le score moyen d'opinion (MOS) « qui demande aux participants d'évaluer leur impression globale d'une voix sur une échelle de 1 à 5 ». Le MOS est évidemment repris dans cette étude, avec cinq niveaux de réponse : Excellent, Bon, Neutre, Mauvais et Très mauvais.

Il était également demandé aux participants de donner une note entre 0 et 10 (11 possibilités donc) afin de savoir s’ils aimeraient écouter leurs livres, magazines ou podcasts préférés avec cette voix. D’autres critères sont également pris en compte. Il y a ainsi la vitesse de lecture, avec trop rapide, juste bien ou trop lente. Des questions binaires sont aussi posées (on répond par oui ou non) : la voix est-elle monotone, naturelle, facile à comprendre, manque-t-elle d’émotion ou de personnalité et enfin permet-elle de se concentrer sur le contenu ?

Deux humains en tête, le troisième à la traîne

Au final, la voix avec la moyenne des MOS la plus élevée est Human 3 avec 4,2 sur 5. Elle est suivie par Human 1 et Judy (de Mozilla) à égalité avec 3,9 sur 5. Une autre variante de Judy, Google, Windows et macOS sont aussi à 3,7. En bas du tableau, LJ Speech (de nouveau de Mozilla) est à 3,2 sur 5, Android UK à 2,9 et enfin iOS à 2,8 seulement (le plus mauvais score).

On remarque une certaine corrélation entre le MOS et la volonté de réécouter la voix sur d’autres textes, ce qui est finalement assez logique. Dans le cas de Human 3, le score médian des participants souhaitant écouter cette voix sur d’autres contenus est de 8 sur 10, contre 1 pour Android UK et même 0 pour iOS.

Les chercheurs indiquent que « dix voix TTS ont reçu un pourcentage plus élevé de notes positives que la voix humaine la moins bien notée, tandis que huit voix TTS ont reçu moins de notes négatives que la voix humaine la plus basse ». Dans les deux cas, Human 2 est la plus « mauvaise » voix d’une personne réelle.

En étudiant les réponses sur la qualité et la clarté des voix, les chercheurs arrivent à la conclusion suivante : « certaines voix sont faciles à comprendre, mais sont quand même déplaisantes à écouter, tandis que d'autres sont agréables, mais pas faciles à comprendre ». Ils ajoutent que « quelques-unes excellent dans les deux dimensions : généralement les voix humaines ».

L’étude de la vitesse de prononciations permet de conclure que la « bonne » vitesse est généralement entre « 163 et 177 mots par minutes », ou WPM (words per minute) dans la langue de Shakespeare. Cette fourchette dépend certainement du type de texte, de sa complexité et du public à l’écoute, mais elle donne au moins un ordre d’idée.

Aucune des voix ne surclasse toutes les autres

En guise de conclusions, les chercheurs expliquent avoir « constaté que des voix telles que Human 3, Judy W1 et Google C se classaient très bien sur plusieurs critères tels que la vitesse, la qualité et la volonté d'écouter d'autres contenus en utilisant cette voix. Cependant, aucune de ces voix n'a surpassé toutes les autres sur tous les critères évalués. Par exemple, Human 3 a reçu la note la plus élevée sur le score moyen d'opinion, la volonté d'écouter à nouveau, la clarté et la qualité, mais elle n’est classée que troisième en compréhension ».

Ils enchaînent : « Sans surprise, nous avons constaté que les voix humaines surpassaient encore largement les voix TTS. Sur presque tous les critères étudiés […] deux des voix humaines ont systématiquement reçu des notes plus élevées que toutes les voix TTS. Cependant, plusieurs des voix TTS se sont toujours mieux comportées que l'une des voix humaines (Human 2) ». Bref, il existe donc « des situations où une voix TTS de haute qualité peut être préférable à certaines voix humaines ».

Les voix de synthèse bientôt à égalité avec les voix humaines ?

Les différences entre les meilleures voix TTS et humaines sont assez faibles et les chercheurs pensent que « les voix TTS pourront bientôt atteindre la parité avec la parole humaine ». Il convient par contre de rappeler que cette étude ne porte que sur un seul texte, il est donc difficile d’en tirer de larges conclusions. En effet, sur d’autres documents les résultats pourraient être différents.

Une chose est sûre, on est désormais loin de la voix de robot, au moins pour les plus performantes. Signalons enfin que l’étude a commencé il y a près de deux ans déjà. Sans être une éternité, ce délai est loin d’être négligeable en termes de développement informatique : les voix TTS se sont sûrement encore améliorées depuis.

Dans tous les cas, Mozilla se félicite de la publication de cette étude, mais titre son billet de blog d’une manière un peu orientée : « Une étude Mozilla montre que certaines voix de synthèse obtiennent un score supérieur à celui des humains ». C’est certes vrai, mais cela laisse de côté les deux voix humaines arrivées en tête, mais un titre du genre « les voix humaines font mieux que les voix de synthèse » aurait certainement été moins vendeur.

La fondation soulève néanmoins plusieurs questions intéressantes : « Une question que nous n’avons pas posée dans cette étude était de savoir si les gens avaient confiance ou croyaient le contenu qui leur était lu ». Elle est d’autant plus d’actualité avec les deep fake et autre détournement qui permettent d’usurper la voix/vidéo d’une personne pour lui faire tenir n’importe quel discours. Avec l’amélioration des synthèses vocales, il sera d’autant plus difficile de repérer les faux.

Une étude pointe les possibles effets pervers de l'intelligence artificielle

Mozilla se demande ensuite ce qu’il arrivera quand, simplement en changeant la voix de synthèse, il sera possible de modifier (même légèrement) la compréhension d’un texte. Le choix de telle ou telle TTS serait alors tout sauf anodin. Ce qui est certain, c’est que ce genre de considération ne va pas arrêter les progrès de l’informatique.

Commentaires (18)

pixel-dot

Le 12/05/2020 à 15h 36

Mais quel manque de rigueur pour étude qui se veut scientifique. L’exemple d’IOS est flagrant. Quelle voix TTS est notée? Siri, qui est la voix TTS par défaut ? Et si oui quellle version/date? Les Voix TTS inclues? Si oui laquelle? Samantha? Ava? Susan?…

pamputt Abonné

Le 12/05/2020 à 15h 52

Probablement la voix par défaut pour iOS. Les voix sont écoutables ici donc vous pourrez vous faire votre avis. S’il s’agit de la voix par défaut sur iOS, il serait peut-être temps qu’Apple la change " />

DanLo Abonné

Le 12/05/2020 à 15h 56

user_6677 a écrit :

Mais quel manque de rigueur pour étude qui se veut scientifique. L’exemple d’IOS est flagrant. Quelle voix TTS est notée? Siri, qui est la voix TTS par défaut ? Et si oui quellle version/date? Les Voix TTS inclues? Si oui laquelle? Samantha? Ava? Susan?…

J’en connais un qui a bobo pour Apple… " />

Sinon si tu lis leur publication tu verras que c’est indiqué…

Franchement, si le seul manque de rigueur scientifique que tu y vois c’est le fait qu’ils ont pas bien documenté les voix TTS testées (alors que c’est pas leur objectif de faire un top topito hein…), je crois qu’on est plutôt bien. " />

cauzik Abonné

Le 12/05/2020 à 16h 11

fanboy spotted.

Est-ce que quelqu’un connait des bonnes voix en FR pour tester la lecture d’articles de presse ? J’ai essayé de trouver dans firefox si une était implantée mais je n’ai pas l’impression.

zeldomar Abonné

Le 12/05/2020 à 16h 25

J’ai deux petites remarques sur leurs études :

 - la plateforme Amazon Mechanical Turk est principalement utilisé en inde, qui ont un fort lien avec l’Angleterre, qui peut peut-être expliqué leur affinité avec la voix humaine 3 qui a un fort accent britannique

 - les 2 premières voix humaines sortent du lot car on se rend compte que ce n’est pas de la synthèse à des petits détails, et c’est donc forcément plus appréciable à écouter (enfin j’imagine " />) :

réverbération pour le premier (il ne devait pas être en studio " />)

on entend clairement le décollement des lèvres pour le second

tazvld Abonné

Le 12/05/2020 à 16h 27

Les voix de synthèses ont encore un problème de son “synthétique”, un coté métallique d’un son trop compressé.

L’autre point, c’est l’absence de son de glotte, de langue, d’inspiration qui sont très présent chez les voix humaine. Or je sais que les auteurs de wavenet (deepmind/google, et il me semble que c’est les voix de google dans l’article) lorsqu’il laissent leur réseau libre fait énormément ce genre de son.

(voir section “Knowing What to Say” dans ce billet :https://deepmind.com/blog/article/wavenet-generative-model-raw-audio)

Cumbalero

Le 12/05/2020 à 17h 03

Je ne sais même pas si cette étude a un sens.

Que les voix synthétiques ressemblent techniquement de plus en plus à une voix humaine est une chose, mais il y a tellement de paramètres totalement subjectifs dans ce qui fait qu’on trouve un timbre, une diction, une scansion, un accent agréable ou non que définir si une voix ou une autre est meilleure…

La narration dans les mystérieuses cités d’or par la voix d’Arletty dans Hôtel du Nord, on tente ? Homer Simpson doublé par Philippe Noiret ? La lecture d’une RFC par Macha Béranger ne me la rendra pas moins indigeste. A l’opposé, je ne suis pas tenté par une reprise de Fitter, happier de Radiohead par Pavarotti.

Cqoicebordel Abonné

Le 12/05/2020 à 18h 20

En tout cas, à écouter les échantillons, on se rend vite compte que les voix générées avec passage à travers un réseau de neurones sont un cran au dessus. C’est vachement intéressant.

Le 12/05/2020 à 19h 20

Cqoicebordel a écrit :

En tout cas, à écouter les échantillons, on se rend vite compte que les voix générées avec passage à travers un réseau de neurones sont un cran au dessus. C’est vachement intéressant.

C’est le cas de 100% des voix humaines, non?

Okki Abonné

Le 12/05/2020 à 22h 15

#10

Et n’oubliez pas de contribuer à Common Voice. Le jeu de données permettra de créer tout aussi bien un système de reconnaissance vocale libre de qualité, que de nouvelles voix pour la synthèse vocale.

Mihashi Abonné

Le 12/05/2020 à 23h 27

#11

Comparer des voix synthétiques à seulement trois voix humaines, c’est un peu chaud pour en tirer des conclusions fiables…

eres Abonné

Le 13/05/2020 à 09h 17

#12

J’ai testé et utilisé les voix Acapela pour un service téléphonique où il faut changer régulièrement le contenu.

Testable très facilement surhttps://acapela-box.com/AcaBox/index.php

Cela nécessite un peu d’ajustement avec les paramètres et reste encore artificiel, mais elles sont très compréhensibles et de plutôt bonne qualité (et pas cher)

Le 13/05/2020 à 09h 53

#13

Je te remercie je testerai ça !

gendy54 Abonné

Le 13/05/2020 à 10h 17

#14

Si Mozilla se met à faire du putaclic, on est pas rendu…

MoonRa

Le 13/05/2020 à 21h 44

#15

J’ai l’impression d’avoir perdu mon temps, je suis désolé pour moi même

Le 14/05/2020 à 13h 30

#16

bah voyons.

Ne pas bien documenter les voix TTS testées quand c’est justement le sujet de d’etude, ça te tique pas toi? Evidemment que je compare avec iOS car c’est ce que j’ai. Mais comment puis je faire confiance à l’etude sur les autres voix si déjà pour celles dont je peux en lire les resultats, on ne sait pas précisement de quoi on parle?

Le 14/05/2020 à 14h 19

#17

Ou sinon tu relis attentivement la seconde phrase de mon commentaire précédent…

Scylune Abonné

Le 17/05/2020 à 15h 04

#18

Woah… Google C et les Polly sont bien fichues ^^

Des chercheurs comparent la qualité de 18 voix de synthèse à celles d‘humains

La conclusion va-t-elle vous surprendre ?

Les voix d’Amazon, Apple, Google, Microsoft, Mozilla…

Deux humains en tête, le troisième à la traîne

Aucune des voix ne surclasse toutes les autres

Les voix de synthèse bientôt à égalité avec les voix humaines ?

Tiens, en parlant de ça :

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Sommaire de l'article

Introduction

Les voix d’Amazon, Apple, Google, Microsoft, Mozilla…

Deux humains en tête, le troisième à la traîne

Aucune des voix ne surclasse toutes les autres

Les voix de synthèse bientôt à égalité avec les voix humaines ?

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (18)