« Ardila & al. (2020) » : différence entre les versions
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| (4 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 5 : | Ligne 5 : | ||
* [[Common Voice - Breton]] | * [[Common Voice - Breton]] | ||
Il est important de regarder précisément les répartitions dialectales internes à chaque langue documentée, surtout pour les langues frontalières. Par exemple les 459h validées pour le basque dans la version 22 ne concernent pas spécifiquement le [[basque]] parlé en Ipparalde, et les dialectes de l'État espagnol ne qualifient pas comme langues de l'État français. De même pour les 3 288h du [[catalan]]. Ces ressources sont pertinentes pour développer des outils numériques pour les langues de l'État français, mais ne les hébergent pas spécifiquement, et pour des langues moins documentées, potentiellement pas du tout. Les métadonnées dialectales sont parfois partiellement récupérables lorsque les locuteurs contributeurs ont renseigné leur dialecte dans leur profil. | |||
[[Category:ouvrages de recherche|Categories]] | [[Category:ouvrages de recherche|Categories]] | ||
[[Category:TAL|Categories]] | |||
Dernière version du 7 novembre 2025 à 08:38
- Ardila Rosana, Branson Megan, Davis Kelly, Henretty Michael, Kohler Michael, Meyer Josh, Morais Reuben, Saunders Lindsay, Tyers Francis M., Weber Gregor. 2020. 'Common Voice: A Massively-Multilingual Speech Corpus', Proceedings of the 12th Language Resources and Evaluation Conference, 4218–4222, Marseille, France. ELRA. texte.
La plateforme Common Voice collecte des données dans plusieurs langues de l'État français.
Il est important de regarder précisément les répartitions dialectales internes à chaque langue documentée, surtout pour les langues frontalières. Par exemple les 459h validées pour le basque dans la version 22 ne concernent pas spécifiquement le basque parlé en Ipparalde, et les dialectes de l'État espagnol ne qualifient pas comme langues de l'État français. De même pour les 3 288h du catalan. Ces ressources sont pertinentes pour développer des outils numériques pour les langues de l'État français, mais ne les hébergent pas spécifiquement, et pour des langues moins documentées, potentiellement pas du tout. Les métadonnées dialectales sont parfois partiellement récupérables lorsque les locuteurs contributeurs ont renseigné leur dialecte dans leur profil.