Lancé il y a plus de quatre ans, ce projet a pour but d’aider les développeurs dans le domaine de la reconnaissance vocale. Les enregistrements peuvent notamment servir pour des intelligences artificielles.
Un nouveau cap est franchi avec plus de 20 000 heures disponibles. 27 langues disposent désormais de 100 heures minimum de données vocales, tandis que 9 langues ont au moins 500 heures.
« Chaque entrée du jeu de données consiste en un seul fichier MP3 accompagné d’un fichier du texte correspondant. Une grande partie des 20 217 heures enregistrées dans le jeu de données comprennent également des métadonnées démographiques, telles que l’âge, le sexe et l’accent, qui peuvent contribuer à améliorer la précision des moteurs de reconnaissance vocale », explique Mozilla.