Ardila & al. (2020)

Ardila Rosana, Branson Megan, Davis Kelly, Henretty Michael, Kohler Michael, Meyer Josh, Morais Reuben, Saunders Lindsay, Tyers Francis M., Weber Gregor. 2020. 'Common Voice: A Massively-Multilingual Speech Corpus', Proceedings of the 12th Language Resources and Evaluation Conference, 4218–4222, Marseille, France. ELRA. texte.

La plateforme Common Voice collecte des données dans plusieurs langues de l'État français.

Common Voice - Breton

Cependant, il convient d'être prudent et de regarder précisément les répartitions dialectales, surtout pour les langues frontalières. Par exemple les 459h validées pour le basque dans la version 22 ne concernent pas spécifiquement le basque parlé en Ipparalde, et les dialectes de l'État Espagnol ne qualifient pas comme langues de l'État français. De même pour les 3 288h du catalan. Ces ressources sont pertinentes pour développer des outils numériques pour les langues de l'État français, mais ne les héberge pas spécifiquement, et pour des langues moins documentées, potentiellement pas du tout.

Ardila & al. (2020)

Menu de navigation