Vous n'avez pas encore de notification

Page d'accueil

Options d'affichage

Abonné

Actualités

Abonné

Des thèmes sont disponibles :

Thème de baseThème de baseThème sombreThème sombreThème yinyang clairThème yinyang clairThème yinyang sombreThème yinyang sombreThème orange mécanique clairThème orange mécanique clairThème orange mécanique sombreThème orange mécanique sombreThème rose clairThème rose clairThème rose sombreThème rose sombre

Vous n'êtes pas encore INpactien ?

Inscrivez-vous !
Mozilla Common Voice devient la plus grande base d'échantillons de voix en accès libre

Fin 2017, Mozilla initiait un projet baptisé Common Voice. Sur la base de 20 000 participations volontaires initialement, l’éditeur avait bâti un modèle de traitement et une vaste base de données, le tout sous licence MPL 2.0.

La collection a évolué pour inclure aujourd’hui 1 400 heures d’enregistrement de 42 000 contributeurs. Il s’agit toujours en bonne partie de volontaires, mais les échantillons incluent maintenant des participations de professionnels et linguistes travaillant sur les technologies liées à la voix.

La base de données est désormais disponible en 22 langues, dont le néerlandais, le haka chin, l'espéranto, le farsi, le basque, l’espagnol, le français, l’allemand, le mandarin, le chinois traditionnel, le gallois et le kabyle.

Le projet a finalement accouché de la plus grande base d’échantillons vocaux en libre accès. L’objectif n’a pas changé, à savoir aider l'entraînement des modèles de machine learning à la reconnaissance vocale.

Actuellement, Mozilla affirme être capable de convertir à la volée des paroles en texte grâce à DeepSpeech, son moteur open source Speech-to-Text. Le moteur est d’ailleurs déjà utilisé dans certains produits comme Mycroft (assistant vocal open source), Leon (assistant personnel) et FusionPBX pour la transcription des messages.

Même si Common Voice vient de franchir une étape majeure, le projet va continuer à s’enrichir. Mozilla annonce vouloir « tester différentes approches pour accroître la qualité et la quantité des données » que l’éditeur pourra collecter, aussi bien grâce à la communauté que des partenariats.

Le site Common Voices permet de télécharger n’importe quel lot de données, en fonction de la langue choisie. Attention, tous les lots ne sont pas équivalents. Un regard sur les versions anglaise et française le montre bien, la première pesant 22 Go, la seconde 2 Go.

11 commentaires
Avatar de tazvld Abonné
Avatar de tazvldtazvld- 01/03/19 à 09:48:34

Dans les stats on peut lire :
"Sex

  • 41%,Male
  • 10%, Female"
    Voila, voila...
Avatar de TriEdge INpactien
Avatar de TriEdgeTriEdge- 01/03/19 à 10:04:23

49% des english qui ne sont ni des male, ni female. Bizzare ces gens.

Mais ya mieux, l'esperanto c'est 21% male et 10% female et le chuvash avec uniquement 46% de male et rien d'autre... :D

Avatar de Baldurien Abonné
Avatar de BaldurienBaldurien- 01/03/19 à 10:05:29

tazvld a écrit :

Dans les stats on peut lire :
"Sex

  • 41%,Male
  • 10%, Female"
    Voila, voila...

Mais y a mieux (?):

Accent

  • 74% Français de France
  • 2% Français de Belgique
  • 1% Français de Suisse
  • 1% Français du Canada

Age

  • 25% 40 - 49
  • 23% 19 - 29
  • 20% 30 - 39
  • 6% < 19
  • 2% 50 - 59
  • 2% 60 - 69

Sex

  • 72% Male
  • 7% Female

Voilà voilà...

(Reste à savoir c'est quoi les 21% restants...)

Avatar de monpci INpactien
Avatar de monpcimonpci- 01/03/19 à 10:56:00

qui veux récupérer 22 go d'audio anglais ....

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 01/03/19 à 12:12:30

En faite, je pense que ça peut faire des truc très amusant.
Par exemple, avec les voix, tu as souvent l'information de sexe et d'accent. Il y a moyen d'utiliser les capacité de transfert de "style" pour faire une sorte de modulateur de voix permettant par exemple à l'un des 41% de "male" anglais de séduire une des 10% de "female" avec un accent frenchy so sexy (la concurrence semble rude, il faut mettre toutes ses chances de son coté).

Avatar de Meewan Abonné
Avatar de MeewanMeewan- 01/03/19 à 13:12:32

Les trous dans les stats (qui ne font pas 100%) c'est parceque tout est facultatif. Les 49% non genré sont simplement 49% de participants qui ne l'ont pas précisé.

Édité par Meewan le 01/03/2019 à 13:12
Avatar de Jarodd INpactien
Avatar de JaroddJarodd- 01/03/19 à 14:22:25

J'ai participé et je n'ai pas le souvenir d'avoir renseigné des infos sur mon genre.

Avatar de tazvld Abonné
Avatar de tazvldtazvld- 01/03/19 à 15:22:13

C'est juste que la façon dont c'est écrit ça laisse libre cours à l'imagination. Il aurait fallu ajouter "49% N/A".

Avatar de PercevalIO INpactien
Avatar de PercevalIOPercevalIO- 01/03/19 à 17:46:53

201 Mo de Breton et pas de Saintongeais, je hurle.
😋

Avatar de Okki Abonné
Avatar de OkkiOkki- 01/03/19 à 21:15:41

Faut s'authentifier pour pouvoir ensuite indiquer certaines infos te concernant.

Il n'est plus possible de commenter cette actualité.
Page 1 / 2