VALL-E, la nouvelle IA de Microsoft, peut simuler la voix de n'importe qui avec 3 secondes d'audioCrédits : milos-kreckovic/iStock

« La nouvelle IA de Microsoft peut simuler la voix de n'importe qui avec 3 secondes d'audio », titre Ars Technica. Le modèle de synthèse vocale peut en outre « préserver le ton émotionnel et l'environnement acoustique du locuteur » :

« Selon ses créateurs, VALL-E pourrait être utilisé pour des applications de synthèse vocale de haute qualité, pour l'édition de la parole, où l'enregistrement d'une personne pourrait être édité et modifié à partir d'une transcription textuelle (en lui faisant dire quelque chose qu'elle ne disait pas à l'origine), et pour la création de contenu audio lorsqu'il est combiné à d'autres modèles d'IA générative comme GPT-3. »

Contrairement à d'autres méthodes de synthèse vocale, qui synthétisent généralement la parole en manipulant des formes d'onde, VALL-E analyse la façon dont une personne parle, décompose cette information en composants discrets (appelés « tokens ») grâce à EnCodec, une technologie que Meta a annoncée en octobre 2022, et utilise des données d'entraînement pour faire correspondre ce qu'il « sait » de la façon dont cette voix sonnerait si elle prononçait d'autres phrases en dehors de l'échantillon de trois secondes, explique Ars Technica : 

« En plus de préserver le timbre vocal et le ton émotionnel d'un locuteur, VALL-E peut également imiter l'"environnement acoustique" de l'échantillon audio. Par exemple, si l'échantillon provient d'un appel téléphonique, l’audio simulera les propriétés acoustiques et fréquentielles d'un appel téléphonique dans sa synthèse (une façon élégante de dire que cela ressemblera aussi à un appel téléphonique). »

Les chercheurs de Microsoft « semblent conscients du préjudice social potentiel que cette technologie pourrait entraîner », relève Ars Technica qui souligne qu'ils précisent que :

« Puisque VALL-E pourrait synthétiser une parole qui maintient l'identité du locuteur, il peut comporter des risques de mauvaise utilisation du modèle, comme l'usurpation de l'identification vocale ou l'usurpation de l'identité d'un locuteur spécifique. Pour atténuer ces risques, il est possible de construire un modèle de détection permettant de déterminer si un clip audio a été synthétisé par VALL-E. Nous mettrons également en pratique les principes de l'IA de Microsoft lors du développement ultérieur des modèles. »

Vous n'avez pas encore de notification

Page d'accueil
Options d'affichage
Abonné
Actualités
Abonné
Des thèmes sont disponibles :
Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !