Whisper est un système multilingue de reconnaissance vocale, qu’OpenAI vient de passer sous licence MIT et donc de rendre open source. Le code et les explications ont été publiés sur GitHub.
Selon OpenAI, Whisper peut faire la différence par rapport à d’autres solutions concurrentes. L’entreprise est consciente que beaucoup de grosses sociétés se sont lancées dans ce domaine depuis des années et aboutissent à des résultats tangibles.
Elle indique cependant que Whisper a été entrainé avec 680 000 heures de données multilingues et « multitâches », aboutissant à un système capable de repérer de nombreuses finesses et de prendre en compte des accents, des sons en arrière-plan et même du jargon technique.
Bien que Whisper ait avant tout été développé pour les chercheurs, il pourrait être utilisé en environnement de production, une fois adapté. Bien qu’il ne puisse pas être employé tel quel, OpenAI le décrit notamment comme très à l’aise pour reconnaitre et traduire automatiquement d’autres langues en anglais.
L’entreprise prévient également que Whisper a certaines limitations, notamment dès que l’on touche à la prédiction de mot. Des confusions peuvent apparaître parfois avec des mots écrits alors qu’ils n’ont pas été prononcés, la faute selon OpenAI aux données utilisées pour l’entrainement.