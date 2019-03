Fin 2017, Mozilla initiait un projet baptisé Common Voice. Sur la base de 20 000 participations volontaires initialement, l’éditeur avait bâti un modèle de traitement et une vaste base de données, le tout sous licence MPL 2.0.

La collection a évolué pour inclure aujourd’hui 1 400 heures d’enregistrement de 42 000 contributeurs. Il s’agit toujours en bonne partie de volontaires, mais les échantillons incluent maintenant des participations de professionnels et linguistes travaillant sur les technologies liées à la voix.

La base de données est désormais disponible en 22 langues, dont le néerlandais, le haka chin, l'espéranto, le farsi, le basque, l’espagnol, le français, l’allemand, le mandarin, le chinois traditionnel, le gallois et le kabyle.

Le projet a finalement accouché de la plus grande base d’échantillons vocaux en libre accès. L’objectif n’a pas changé, à savoir aider l'entraînement des modèles de machine learning à la reconnaissance vocale.

Actuellement, Mozilla affirme être capable de convertir à la volée des paroles en texte grâce à DeepSpeech, son moteur open source Speech-to-Text. Le moteur est d’ailleurs déjà utilisé dans certains produits comme Mycroft (assistant vocal open source), Leon (assistant personnel) et FusionPBX pour la transcription des messages.

Même si Common Voice vient de franchir une étape majeure, le projet va continuer à s’enrichir. Mozilla annonce vouloir « tester différentes approches pour accroître la qualité et la quantité des données » que l’éditeur pourra collecter, aussi bien grâce à la communauté que des partenariats.

Le site Common Voices permet de télécharger n’importe quel lot de données, en fonction de la langue choisie. Attention, tous les lots ne sont pas équivalents. Un regard sur les versions anglaise et française le montre bien, la première pesant 22 Go, la seconde 2 Go.