Des chercheurs comparent la qualité de 18 voix de synthèse à celles d‘humains

La conclusion va-t-elle vous surprendre ? 18
Accès libre
image dediée
Crédits : iLexx/iStock
Nouvelle Techno
Sébastien Gavois

Une étude se penche sur la qualité et les performances des voix de synthèse lors de la lecture d’un long texte. Si les voix humaines arrivent en tête du classement sur de nombreux critères, les machines les talonnent. Elles parviennent même à dépasser une des voix humaines. Pour Mozilla, cela soulève plusieurs questions.

Mozilla s’est récemment fait l’écho d’une étude portant sur la qualité des synthèses vocales (ou TTS pour text-to-speech) disponibles sur le marché et de leurs performances vis-à-vis des voix humaines. Dans le cas présent, les chercheurs se sont attardés sur un point précis : l’écoute d’un long texte, cet article de Harvard Business Review (909 mots). Le contenu est politiquement neutre pour essayer autant que possible de ne pas alterer des jugements. 

Les chercheurs rappellent que de nombreux comparatifs existent sur des mots, des phrases et des paragraphes, mais que c’est encore assez rare sur un long texte. Une vingtaine de voix de synthèse et humaines ont été comparées entre mi-2018 et mi-2019, via des personnes recrutées aux États-Unis sur la plateforme Amazon Mechanical Turk. Au total, 1 090 retours ont été pris en compte, payés 2,50 dollars en moyenne pour un travail d’une dizaine de minutes.

Les tests ont été effectués en anglais, probablement la langue où la synthèse vocale est la plus répandue et aussi la plus performante. Comme on pouvait s’en douter, la conclusion des chercheurs est mi-figue mi-raisin (contrairement à ce que laisse penser le titre du billet de blog de Mozilla, nous y reviendrons) : « Nous avons constaté que les voix TTS sont proches de rivaliser avec les voix humaines, mais aucune voix ne surpasse les autres dans toutes les mesures de l'évaluation ». 

Les voix d’Amazon, Apple, Google, Microsoft, Mozilla…

Quelques points importants sur les conditions des tests avant de se pencher sur les conclusions. Cinq chercheurs, tous des États-Unis, ont cosigné cette publication : Julia Cambre et Jessica Colnago de la Carnegie Mellon University, Jim Maddock de la Northwestern University, ainsi que Janice Tsai et Jofish Kaye de chez Mozilla (ce qui explique notamment pourquoi la fondation s’en fait le relais). 

Les 18 voix TTS de cette étude proviennent de chez Amazon Polly, Android, Google, iOS, macOS, Voicery et Windows. Trois sont de chez Mozilla : Judy, LJ Speech et Nancy. Les trois voix humaines sont celles de membres de l’équipe de recherche, chacune avec un style différent (Human 3 a par exemple un accent britannique). Des échantillons audio et des caractéristiques techniques de toutes les voix sont disponibles par ici.

TTS comparatif

Enfonçons ensuite quelques portes ouvertes : les mesures sont évidemment subjectives, chaque personne aura des affinités différentes avec les différentes voix. Multiplier le nombre de retours permet néanmoins de lisser les scores et d’établir des classements. Entre 38 et 66 personnes ont écouté chacune des 21 voix de synthèse ou humaine, avec une médiane à 50. 

Une valeur souvent utilisée dans ce genre d’analyse est le score moyen d'opinion (MOS) « qui demande aux participants d'évaluer leur impression globale d'une voix sur une échelle de 1 à 5 ». Le MOS est évidemment repris dans cette étude, avec cinq niveaux de réponse : Excellent, Bon, Neutre, Mauvais et Très mauvais. 

Il était également demandé aux participants de donner une note entre 0 et 10 (11 possibilités donc) afin de savoir s’ils aimeraient écouter leurs livres, magazines ou podcasts préférés avec cette voix. D’autres critères sont également pris en compte. Il y a ainsi la vitesse de lecture, avec trop rapide, juste bien ou trop lente. Des questions binaires sont aussi posées (on répond par oui ou non) : la voix est-elle monotone, naturelle, facile à comprendre, manque-t-elle d’émotion ou de personnalité et enfin permet-elle de se concentrer sur le contenu ?

Deux humains en tête, le troisième à la traîne

Au final, la voix avec la moyenne des MOS la plus élevée est Human 3 avec 4,2 sur 5. Elle est suivie par Human 1 et Judy (de Mozilla) à égalité avec 3,9 sur 5. Une autre variante de Judy, Google, Windows et macOS sont aussi à 3,7. En bas du tableau, LJ Speech (de nouveau de Mozilla) est à 3,2 sur 5, Android UK à 2,9 et enfin iOS à 2,8 seulement (le plus mauvais score).

On remarque une certaine corrélation entre le MOS et la volonté de réécouter la voix sur d’autres textes, ce qui est finalement assez logique. Dans le cas de Human 3, le score médian des participants souhaitant écouter cette voix sur d’autres contenus est de 8 sur 10, contre 1 pour Android UK et même 0 pour iOS.

Les chercheurs indiquent que « dix voix TTS ont reçu un pourcentage plus élevé de notes positives que la voix humaine la moins bien notée, tandis que huit voix TTS ont reçu moins de notes négatives que la voix humaine la plus basse ». Dans les deux cas, Human 2 est la plus « mauvaise » voix d’une personne réelle. 

En étudiant les réponses sur la qualité et la clarté des voix, les chercheurs arrivent à la conclusion suivante : « certaines voix sont faciles à comprendre, mais sont quand même déplaisantes à écouter, tandis que d'autres sont agréables, mais pas faciles à comprendre ». Ils ajoutent que « quelques-unes excellent dans les deux dimensions : généralement les voix humaines ».

L’étude de la vitesse de prononciations permet de conclure que la « bonne » vitesse est généralement entre « 163 et 177 mots par minutes », ou WPM (words per minute) dans la langue de Shakespeare. Cette fourchette dépend certainement du type de texte, de sa complexité et du public à l’écoute, mais elle donne au moins un ordre d’idée. 

TTS comparatif 

Aucune des voix ne surclasse toutes les autres

En guise de conclusions, les chercheurs expliquent avoir « constaté que des voix telles que Human 3, Judy W1 et Google C se classaient très bien sur plusieurs critères tels que la vitesse, la qualité et la volonté d'écouter d'autres contenus en utilisant cette voix. Cependant, aucune de ces voix n'a surpassé toutes les autres sur tous les critères évalués. Par exemple, Human 3 a reçu la note la plus élevée sur le score moyen d'opinion, la volonté d'écouter à nouveau, la clarté et la qualité, mais elle n’est classée que troisième en compréhension ».

Ils enchaînent : « Sans surprise, nous avons constaté que les voix humaines surpassaient encore largement les voix TTS. Sur presque tous les critères étudiés […] deux des voix humaines ont systématiquement reçu des notes plus élevées que toutes les voix TTS. Cependant, plusieurs des voix TTS se sont toujours mieux comportées que l'une des voix humaines (Human 2) ». Bref, il existe donc « des situations où une voix TTS de haute qualité peut être préférable à certaines voix humaines ».

TTS comparatifTTS comparatif

Les voix de synthèse bientôt à égalité avec les voix humaines ?

Les différences entre les meilleures voix TTS et humaines sont assez faibles et les chercheurs pensent que « les voix TTS pourront bientôt atteindre la parité avec la parole humaine ». Il convient par contre de rappeler que cette étude ne porte que sur un seul texte, il est donc difficile d’en tirer de larges conclusions. En effet, sur d’autres documents les résultats pourraient être différents.

Une chose est sûre, on est désormais loin de la voix de robot, au moins pour les plus performantes. Signalons enfin que l’étude a commencé il y a près de deux ans déjà. Sans être une éternité, ce délai est loin d’être négligeable en termes de développement informatique : les voix TTS se sont sûrement encore améliorées depuis.

Dans tous les cas, Mozilla se félicite de la publication de cette étude, mais titre son billet de blog d’une manière un peu orientée : « Une étude Mozilla montre que certaines voix de synthèse obtiennent un score supérieur à celui des humains ». C’est certes vrai, mais cela laisse de côté les deux voix humaines arrivées en tête, mais un titre du genre « les voix humaines font mieux que les voix de synthèse » aurait certainement été moins vendeur.

La fondation soulève néanmoins plusieurs questions intéressantes : « Une question que nous n’avons pas posée dans cette étude était de savoir si les gens avaient confiance ou croyaient le contenu qui leur était lu ». Elle est d’autant plus d’actualité avec les deep fake et autre détournement qui permettent d’usurper la voix/vidéo d’une personne pour lui faire tenir n’importe quel discours. Avec l’amélioration des synthèses vocales, il sera d’autant plus difficile de repérer les faux.

Mozilla se demande ensuite ce qu’il arrivera quand, simplement en changeant la voix de synthèse, il sera possible de modifier (même légèrement) la compréhension d’un texte. Le choix de telle ou telle TTS serait alors tout sauf anodin. Ce qui est certain, c’est que ce genre de considération ne va pas arrêter les progrès de l’informatique.


chargement
Chargement des commentaires...