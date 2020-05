Une étude se penche sur la qualité et les performances des voix de synthèse lors de la lecture d’un long texte. Si les voix humaines arrivent en tête du classement sur de nombreux critères, les machines les talonnent. Elles parviennent même à dépasser une des voix humaines. Pour Mozilla, cela soulève plusieurs questions.

Mozilla s’est récemment fait l’écho d’une étude portant sur la qualité des synthèses vocales (ou TTS pour text-to-speech) disponibles sur le marché et de leurs performances vis-à-vis des voix humaines. Dans le cas présent, les chercheurs se sont attardés sur un point précis : l’écoute d’un long texte, cet article de Harvard Business Review (909 mots). Le contenu est politiquement neutre pour essayer autant que possible de ne pas alterner des jugements.

Les chercheurs rappellent que de nombreux comparatifs existent sur des mots, des phrases et des paragraphes, mais que c’est encore assez rare sur long texte. Une vingtaine de voix de synthèse et humaines ont été comparées entre mi-2018 et mi-2019, via des personnes recrutées aux États-Unis sur la plateforme Amazon Mechanical Turk. Au total, 1 090 retours ont été pris en compte, payés 2,50 dollars en moyenne pour un travail d’une dizaine de minutes.

Les tests ont été effectués en anglais, probablement la langue où la synthèse vocale est la plus répandue et aussi la plus performante. Comme on pouvait s’en douter, la conclusion des chercheurs est mi-figue mi-raisin (contrairement à ce que laisse penser le titre du billet de blog de Mozilla, nous y reviendrons) : « Nous avons constaté que les voix TTS sont proches de rivaliser avec les voix humaines, mais aucune voix ne surpasse les autres dans toutes les mesures de l'évaluation ».