Dans une publication scientifique sur arXiv, des chercheurs de chez Google présentent Tacotron 2, une solution de voix artificielle qui proposerait un résultat très proche d'une prononciation par un humain.
Pour arriver à ce résultat, les chercheurs utilisent deux réseaux de neurones : le premier divise le texte en séquences et les transforme en spectrogramme. La seconde s'occupe de générer le fichier audio.
Plusieurs exemples de rendus sonores sont disponibles sur cette page, avec des séquences qui n'ont évidemment pas été vues durant l'entrainement de Tacotron 2.
En bas de page, un jeu est proposé afin de trouver s'il s'agit d'un humain ou d'une voix de synthèse (un petit tour dans le code source permet de trouver des indices sur la provenance).