Les chercheurs de Meta AI auraient réalisé une « percée » dans le domaine de l'IA générative pour la parole avec Voicebox, « le premier modèle capable de s'adapter à des tâches de génération de la parole pour lesquelles il n'a pas été spécifiquement formé, avec des performances de pointe » dans six langues.

Pour autant, et « en raison des risques potentiels d'utilisation abusive », Meta a décidé de ne par rendre le modèle ni le code de la Voicebox accessible au public « pour le moment » :

« Comme c'est le cas pour d'autres innovations puissantes en matière d'IA, nous reconnaissons que cette technologie est susceptible d'être utilisée à mauvais escient et de causer des dommages involontaires. Nous pensons qu'il est important d'être ouvert à la communauté de l'IA et de partager nos recherches pour faire progresser l'état de l'art en matière d'IA, mais il est également nécessaire de trouver un juste équilibre entre ouverture et responsabilité, ce pourquoi nous partageons notre approche et nos résultats dans un document de recherche. »

Voicebox aurait été entraîné sur plus de 50 000 heures de discours enregistrés et de transcriptions de livres audio du domaine public (en anglais, français, espagnol, allemand, polonais et portugais) à prédire un segment de parole lorsqu'on lui donne la parole environnante et la transcription du segment :

« Ayant appris à remplir la parole à partir du contexte, le modèle peut ensuite appliquer cette méthode à toutes les tâches de génération de parole, y compris la génération de parties au milieu d'un enregistrement audio sans avoir à recréer l'ensemble de son contenu [input, ndlr]. »

Cette capacité pourrait permettre aux personnes incapables de parler de s'exprimer, aider les gens à communiquer de manière naturelle et authentique, même s'ils ne parlent pas la même langue, et personnaliser les voix utilisées par les assistants et personnages virtuels.

Voicebox pourrait également resynthétiser la partie de la parole corrompue par un bruit de courte durée (comme l'aboiement d'un chien) ou remplacer des mots mal prononcés sans avoir à en réenregistrer l'intégralité, et donc rendre le nettoyage et l'édition audio aussi faciles que les outils d'édition d'images populaires l'ont fait pour l'ajustement et la correction des photos.