Educsol, portail national d’information et d’accompagnement des professionnels de l’éducation, met en avant ce mois-ci le projet de base de données Common Voice de Mozilla. Mozilla met à la disposition du public un jeu de données de voix humaines disponible, en 18 langues différentes, ce qui représente près de 1 400 heures de données vocales enregistrées par plus de 42 000 contributeurs.
La base de données Common Voice agrège les contributions de dizaines de milliers de personnes apportant leur voix et des phrases écrites originales dans le domaine public (CC0). Le jeu de données complet est actuellement disponible en format compressé pour téléchargement sur le site dédié.
Chaque entrée du jeu de données consiste selon la présentation « en un seul fichier MP3 accompagné d’un fichier du texte correspondant. Une grande partie des heures enregistrées dans le jeu de données comprennent également des métadonnées démographiques, telles que l’âge, le sexe et l’accent, qui peuvent contribuer à améliorer la précision des moteurs de reconnaissance vocale ». Il est toutefois possible de contribuer de manière anonyme pour toute personne âgée de plus de 19 ans selon les conditions d’utilisation.
Sources
- Common Voice : https://voice.mozilla.org/fr