« Outils pour la constitution de ressources » : différence entre les versions

De Entrelangues
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Ligne 11 : Ligne 11 :


Pour des questions globales sur le montage de corpus, on peut se reporter à la [https://corli.huma-num.fr/faq/ FAQ du consortium CORLI].
Pour des questions globales sur le montage de corpus, on peut se reporter à la [https://corli.huma-num.fr/faq/ FAQ du consortium CORLI].
== Logiciels de gestion de corpus ==
* Schmidt T & K. Wörner. 2014. 'EXMARaLDA', ''Handbook on Corpus Phonology'', Oxford University Press, 402-419. https://exmaralda.org/en/about-exmaralda/
: système pour travailler avec des corpus oraux numériques, comprenant un outil de transcription et d'annotation (Partitur-Editor), un outil de gestion de corpus (Corpus-Manager) un outil de requête et d'analyse (EXAKT).


== Juridique et formulaires de consentement ==
== Juridique et formulaires de consentement ==

Version du 18 novembre 2023 à 07:59

Cet article synthétise des ressources pour l'outillage des langues à corpus restreint, dans le but de mieux les étudier, mais aussi de développer des ressources numériques pour leurs locuteurs.

Les locuteurs et les apprenants des langues à corpus restreint ont en effet des besoins numériques urgents:

  • des agents conversationnels dans la langue
  • des traducteurs automatiques
  • de la reconnaissance de la parole pour dicter des sms, sous-titrer des vidéos
  • de la synthèse vocale

Ces applis doivent en plus pouvoir tourner gratuitement, et sur de l'outillage léger (smartphone).

En 2023, on sait que pour cela, il faut, en masse, des corpus bruts de la langue et des corpus alignés (audio transcrit, texte traduit). On essaie d'efficaciser les corpus annotés. Les développeuses et développeurs du numérique sont incités à synthétiser ici en termes compréhensibles pour les communautés parlantes leurs nécessités en terme de corpus et d'outils numériques, ce dont ils ont besoin pour construire des outils sur corpus restreint.

Pour des questions globales sur le montage de corpus, on peut se reporter à la FAQ du consortium CORLI.

Juridique et formulaires de consentement

La diffusion de données langagières nécessite le consentement éclairé des locuteurs. La collecte nécessite de faire signer un formulaire de consentement, dont un exemplaire signé est laissé au locuteur. Pour les sciences humaines, suite à l’entrée en vigueur du RGPD, le CNRS a publié un guide pour la recherche avec les recommandations en terme de protection des données à caractère personnelles (André-Poyaud & al. 2019). L'annexe I comprend un exemple de formulaire de consentement. Voir aussi les bonnes pratiques recommandées par CORLI.

Projets


Cours en ligne, auto-formation

  • Jouitteau, Mélanie & Lynda Kehli. 2023. Langues minorisées à corpus restreint : partager pour survivre, Callisto-DoRANum-Disciplines, Inist, IKER-CNRS, cours en ligne. DOI : 10.13143/g6rw-eb28.
MOOC développé avec DORANUM pour la science ouverte, pour expliquer clairement les bases de la constitution de corpus pour le développement numérique

Bibliographie

  • Jouitteau, Mélanie. 2023. 'Guide de survie des langues minorisées à l’heure de l’intelligence artificielle : Appel aux communautés parlantes', Lapurdum, texte.
  • Jouitteau, M. 2023. 'Community Internally-driven Corpus Buildings. Three Examples from the Breton Ecosystem', Proc. 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL 2023), 103-107, doi: 10.21437/SIGUL.2023-22.