« Common Voice - Breton » : différence entre les versions

De Entrelangues
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 2 : Ligne 2 :




: La distribution officielle inclut une division en train/dev/test après déduplication par phrase (si une même phrase a été enregistrée par deux personnes différentes, seul un de ces deux enregistrements apparaît), en conséquence, la taille des données utilisées pour cette division est très inférieure à l'ensemble des données validées.
: La distribution officielle inclut une division en train/dev/test après une opération de déduplication par phrase (si une même phrase a été enregistrée par deux personnes différentes, seul un de ces deux enregistrements apparaît), en conséquence, la taille des données utilisées pour cette division est très inférieure à l'ensemble des données validées.
 


== Licence ==
== Licence ==
Ligne 14 : Ligne 13 :
* '''27h''' validées en décembre 2024
* '''27h''' validées en décembre 2024
* '''29h''' validées en novembre 2025
* '''29h''' validées en novembre 2025
== Évaluation qualitative ==
Les jeux de données collectés et hébergés par le projet Mozilla Common Voice ([[Ardila & al. (2020)|Ardila et al., 2020]]) sont constitués d'enregistrements de bonne qualité de courtes phrases lues par des brittophones bénévoles.




[[Category:breton|Categories]]
[[Category:breton|Categories]]
[[Category:Corpus audio transcrit - breton|Categories]]
[[Category:Corpus audio transcrit - breton|Categories]]

Version du 28 octobre 2025 à 16:00


La distribution officielle inclut une division en train/dev/test après une opération de déduplication par phrase (si une même phrase a été enregistrée par deux personnes différentes, seul un de ces deux enregistrements apparaît), en conséquence, la taille des données utilisées pour cette division est très inférieure à l'ensemble des données validées.

Licence

La licence affichée est CC-0, mais le téléchargement est soumis à un accord de non-redistribution.


Historique

  • 27h validées en décembre 2024
  • 29h validées en novembre 2025


Évaluation qualitative

Les jeux de données collectés et hébergés par le projet Mozilla Common Voice (Ardila et al., 2020) sont constitués d'enregistrements de bonne qualité de courtes phrases lues par des brittophones bénévoles.