« Common Voice - Breton » : différence entre les versions
Aller à la navigation
Aller à la recherche
Aucun résumé des modifications |
|||
| Ligne 18 : | Ligne 18 : | ||
Les jeux de données collectés et hébergés par le projet Mozilla Common Voice ([[Ardila & al. (2020)|Ardila et al., 2020]]) sont constitués d'enregistrements de bonne qualité de courtes phrases lues par des brittophones bénévoles. | Les jeux de données collectés et hébergés par le projet Mozilla Common Voice ([[Ardila & al. (2020)|Ardila et al., 2020]]) sont constitués d'enregistrements de bonne qualité de courtes phrases lues par des brittophones bénévoles. | ||
Le mode de collecte par lecture de phrases écrites en peurunvan comme le mode de validation ("Est-ce bien prononcé ?") obtient une collecte de phrases courtes (inférieur à 3 secondes en moyenne dans le CV21) en breton surtout standard, avec une poignée de contributeurs en vannetais, trois voix de femmes dont surtout une en cornouaillais, un homme en Léon et aucun en trégorrois. | |||
[[Category:breton|Categories]] | [[Category:breton|Categories]] | ||
[[Category:Corpus audio transcrit - breton|Categories]] | [[Category:Corpus audio transcrit - breton|Categories]] | ||
Version du 28 octobre 2025 à 16:24
- Mozilla. 2023. Common Voice, datatsets en breton.
- La distribution officielle inclut une division en train/dev/test après une opération de déduplication par phrase (si une même phrase a été enregistrée par deux personnes différentes, seul un de ces deux enregistrements apparaît), en conséquence, la taille des données utilisées pour cette division est très inférieure à l'ensemble des données validées.
Licence
La licence affichée est CC-0, mais le téléchargement est soumis à un accord de non-redistribution.
Historique
- CV.21, 27h validées en décembre 2024
- CV.22, 29h validées en novembre 2025
Évaluation qualitative
Les jeux de données collectés et hébergés par le projet Mozilla Common Voice (Ardila et al., 2020) sont constitués d'enregistrements de bonne qualité de courtes phrases lues par des brittophones bénévoles. Le mode de collecte par lecture de phrases écrites en peurunvan comme le mode de validation ("Est-ce bien prononcé ?") obtient une collecte de phrases courtes (inférieur à 3 secondes en moyenne dans le CV21) en breton surtout standard, avec une poignée de contributeurs en vannetais, trois voix de femmes dont surtout une en cornouaillais, un homme en Léon et aucun en trégorrois.