« Outils pour la constitution de ressources » : différence entre les versions

Dernière version du 17 avril 2025 à 12:57

Cet article inventorie des ressources pour l'outillage des langues à corpus restreint, dans le but de mieux les étudier, mais aussi de développer des ressources numériques et pratiques pour leurs locuteurs.

Les locuteurs et les apprenants des langues à corpus restreint ont en effet des besoins numériques urgents:

des agents conversationnels dans la langue
des traducteurs automatiques
de la reconnaissance de la parole pour dicter des sms, sous-titrer des vidéos
de la synthèse vocale

Ces applications doivent de plus pouvoir tourner gratuitement, et sur de l'outillage léger (smartphone).

En 2024, on sait que pour cela, il faut, en masse, des corpus bruts de la langue et des corpus alignés (audio transcrit, texte traduit). On essaie d'efficaciser les corpus annotés. Les développeuses et développeurs du numérique sont incités à synthétiser ici en termes compréhensibles pour les communautés parlantes leurs nécessités en termes de corpus et d'outils numériques, ce dont ils ont besoin pour construire des outils sur corpus restreint.

Pour des questions globales sur le montage de corpus, on peut se reporter à la FAQ du consortium CORLI.

Dimension juridique

Pour être utilisables, les données langagières doivent être associées à des licences claires et reconnues au niveau international, comme la licence Creative Commons, repérable au premier coup d'œil.

Consultez l'aide au choix de licence Creative Commons adaptée à votre cas et questions fréquentes
L'article de Didier Frochot dans Les Infostratèges explore la compatibilité de la licence Creative Commons avec le droit français. Il identifie des zones de frottement autour de la notion de modification de l'œuvre, mais qui ne sont pas empêchantes en pratique.

formulaires de consentement

La diffusion de données langagières nécessite le consentement éclairé des locuteurs. La collecte nécessite de faire signer un formulaire de consentement, dont un exemplaire signé est laissé au locuteur. Pour les sciences humaines, suite à l’entrée en vigueur du RGPD, le CNRS a publié un guide pour la recherche avec les recommandations en terme de protection des données à caractère personnelles (André-Poyaud & al. 2019). L'annexe I comprend un exemple de formulaire de consentement.

Voir aussi les bonnes pratiques recommandées par CORLI, la lettre d'information de leur groupe « Questions Éthiques & Cadre Juridique », une synthèse sur la législation en vigueur (contexte général, données personnelles, licences) avec les références indispensables.

Projets

Jouitteau, Mélanie & Loic Grobol. à venir. création d'une mélangeuse de corpus pour l'augmentation de ressources pour les traducteurs automatiques.

Ressources sous-produits

Un certain nombre de ressources prévues pour un usage humain produisent indirectement des corpus utiles pour le traitement automatique. Par exemple le Wiktionnaire, au travers de ses exemples traduits, peut représenter une source de corpus parallèle, en passant par un outil comme Wiktextractor pour en extraire les données.

Cours en ligne, auto-formation

Jouitteau, Mélanie & Lynda Kehli. 2023. Langues minorisées à corpus restreint : partager pour survivre, Callisto-DoRANum-Disciplines, Inist, IKER-CNRS, cours en ligne. DOI : 10.13143/g6rw-eb28.

MOOC développé avec DORANUM pour la science ouverte, pour expliquer clairement les bases de la constitution de corpus pour le développement numérique

Bibliographie

André-Poyaud, Isabelle, Sandrine Astor, Olivier Baude, Fabrice Boudjaaba, Gaëlle Bujan, Béatrice Collignon, Frédéric Dubois, Emmanuel Kessous, Lionel Maurel & Muriel Roger. 2019. Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte, GUIDE POUR LA RECHERCHE, InSHS, texte.

Eric Le Ferrand, Claudel Pierre-Louis, Ruoran Dong, Benjamin Lecouteux, Daphné Gonçalves-Teixeira, et al. 2023. 'Outiller la documentation des langues créoles', LIFT 2023 : journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain, Nov 2023, Vandoeuvre-Lès-Nancy, France. texte.

Galliot, Benjamin, Guillaume Wisniewski, Séverine Guillaume, Guillaume Jacques, Alexis Michaud. 2022. 'Faciliter l'accès des praticiens du Traitement Automatique des Langues à des jeux de données de langues rares : un deuxième point d'étape', Journées Jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL), Nov 2022, Marseille, France. texte.

Jouitteau, Mélanie. 2023. 'Guide de survie des langues minorisées à l’heure de l’intelligence artificielle : Appel aux communautés parlantes', Lapurdum, texte.

Jouitteau, M. 2023. 'Community Internally-driven Corpus Buildings. Three Examples from the Breton Ecosystem', Proc. 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL 2023), 103-107, doi: 10.21437/SIGUL.2023-22.

Schmidt T & K. Wörner. 2014. 'EXMARaLDA', Handbook on Corpus Phonology, Oxford University Press, 402-419. https://exmaralda.org/en/about-exmaralda/

système pour travailler avec des corpus oraux numériques, comprenant un outil de transcription et d'annotation (Partitur-Editor), un outil de gestion de corpus (Corpus-Manager) un outil de requête et d'analyse (EXAKT).

Williams, G. C. & Christophe Ropers. 2007. 'Textes électroniques et corpus : pourquoi utiliser les normes de la TEI ?', Hédiard M. (éd.), Linguistica dei corpora: strumenti e applicazioni, Cassino: Edizioni Università di Cassino, 23-44.

@@ Ligne 1 : / Ligne 1 : @@
-Cet article regroupe et synthétise des ressources pour l'outillage des langues à corpus restreint, dans le but de mieux les étudier, mais aussi de mieux développer des ressources numériques pour les locuteurs de ces langues. Les développeuses et développeurs du numérique sont incités à synthétiser ici en termes compréhensibles pour les communautés parlantes leurs nécessités en terme de corpus et d'outils numériques.
+Cet article inventorie des ressources pour l'outillage des langues à corpus restreint, dans le but de mieux les étudier, mais aussi de développer des ressources numériques et pratiques pour leurs locuteurs.
-== Logiciels de gestion de corpus ==
+Les locuteurs et les apprenants des langues à corpus restreint ont en effet des besoins numériques urgents:
+* des agents conversationnels dans la langue
+* des traducteurs automatiques
+* de la reconnaissance de la parole pour dicter des sms, sous-titrer des vidéos
+* de la synthèse vocale
+Ces applications doivent de plus pouvoir tourner gratuitement, et sur de l'outillage léger (smartphone).
-* Schmidt T & K. Wörner. 2014. 'EXMARaLDA', ''Handbook on Corpus Phonology'', Oxford University Press, 402-419. https://exmaralda.org/en/about-exmaralda/
+En 2024, on sait que pour cela, il faut, en masse, des corpus bruts de la langue et des corpus alignés (audio transcrit, texte traduit). On essaie d'efficaciser les corpus annotés. Les développeuses et développeurs du numérique sont incités à synthétiser ici en termes compréhensibles pour les communautés parlantes leurs nécessités en termes de corpus et d'outils numériques, ce dont ils ont besoin pour construire des outils sur corpus restreint.
-: système pour travailler avec des corpus oraux numériques, comprenant un outil de transcription et d'annotation (Partitur-Editor), un outil de gestion de corpus (Corpus-Manager) un outil de requête et d'analyse (EXAKT).
+Pour des questions globales sur le montage de corpus, on peut se reporter à la [https://corli.huma-num.fr/faq/ FAQ du consortium CORLI].
+== Dimension juridique ==
+Pour être utilisables, les données langagières doivent être associées à des licences claires et reconnues au niveau international, comme la licence Creative Commons, repérable au premier coup d'œil.
+* Consultez l'[https://chooser-beta.creativecommons.org/ aide au choix de licence Creative Commons adaptée à votre cas] et [https://creativecommons.org/faq/fr/ questions fréquentes]
+* L'article de Didier Frochot dans ''Les Infostratèges'' explore la [https://www.les-infostrateges.com/article/les-licences-creative-commons-une-nouvelle-liberte-pour-linformation-scientifique-et-professionnelle compatibilité de la licence Creative Commons avec le droit français]. Il identifie des zones de frottement autour de la notion de modification de l'œuvre, mais qui ne sont pas empêchantes en pratique.
+=== formulaires de consentement ===
-== Juridique et formulaires de consentement ==
+La diffusion de données langagières nécessite le consentement éclairé des locuteurs. La collecte nécessite de faire signer un formulaire de consentement, dont un exemplaire signé est laissé au locuteur. Pour les sciences humaines, suite à l’entrée en vigueur du RGPD, le CNRS a publié un guide pour la recherche avec les recommandations en terme de protection des données à caractère personnelles ([[André-Poyaud & al. (2019)|André-Poyaud & al. 2019]]). L'annexe I comprend un exemple de formulaire de consentement.
-La diffusion de données langagières nécessite le consentement éclairé des locuteurs. La collecte nécessite de faire signer un formulaire de consentement, dont un exemplaire signé est laissé au locuteur. Pour les sciences humaines, suite à l’entrée en vigueur du RGPD, le CNRS a publié un guide pour la recherche avec les recommandations en terme de protection des données à caractère personnelles ([[André-Poyaud & al. (2019)|André-Poyaud & al. 2019]]). L'annexe I comprend un exemple de formulaire de consentement. Voir aussi [https://corli.huma-num.fr/bonnes-pratiques-juridiques/ les bonnes pratiques recommandées par CORLI].
+Voir aussi [https://corli.huma-num.fr/bonnes-pratiques-juridiques/ les bonnes pratiques recommandées par CORLI], la [https://corli.huma-num.fr/les-groupes-reseaux/gp4/ lettre d'information de leur groupe « Questions Éthiques & Cadre Juridique »], une [https://mi-gt-donnees.pages.math.unistra.fr/guide/01-imaginer.html#comprendre-et-respecter-la-legislation-en-vigueur synthèse sur la législation en vigueur] (contexte général, données personnelles, licences) avec les références indispensables.
 == Projets ==
@@ Ligne 14 : / Ligne 31 : @@
 * Jouitteau, Mélanie & Loic Grobol. à venir. [https://arbres.iker.cnrs.fr/index.php?title=M%C3%A9langeuse_de_corpus création d'une mélangeuse de corpus pour l'augmentation de ressources pour les traducteurs automatiques].
+== Ressources sous-produits ==
+Un certain nombre de ressources prévues pour un usage humain produisent indirectement des corpus utiles pour le traitement automatique. Par exemple le Wiktionnaire, au travers de ses exemples traduits, peut représenter une source de corpus parallèle, en passant par un outil comme [https://aclanthology.org/2022.lrec-1.140/ Wiktextractor] pour en extraire les données.
 == Cours en ligne, auto-formation ==
@@ Ligne 23 : / Ligne 43 : @@
 * [[André-Poyaud & al. (2019)|André-Poyaud, Isabelle, Sandrine Astor, Olivier Baude, Fabrice Boudjaaba, Gaëlle Bujan, Béatrice Collignon, Frédéric Dubois, Emmanuel Kessous, Lionel Maurel & Muriel Roger. 2019]]. ''Les sciences humaines et sociales et la protection des données à caractère personnel dans le contexte de la science ouverte, GUIDE POUR LA RECHERCHE'', InSHS, [https://www.inshs.cnrs.fr/sites/institut_inshs/files/pdf/guide-rgpd_2.pdf texte].
+* [[Le Ferrand & al. (2023)|Eric Le Ferrand, Claudel Pierre-Louis, Ruoran Dong, Benjamin Lecouteux, Daphné Gonçalves-Teixeira, et al. 2023]]. 'Outiller la documentation des langues créoles', ''LIFT 2023 : journées scientifiques du GdR Linguistique Informatique, Formelle et de Terrain'', Nov 2023, Vandoeuvre-Lès-Nancy, France. [https://hal.science/hal-04302623 texte].
+* Galliot, Benjamin, Guillaume Wisniewski, Séverine Guillaume, Guillaume Jacques, Alexis Michaud. 2022. 'Faciliter l'accès des praticiens du Traitement Automatique des Langues à des jeux de données de langues rares : un deuxième point d'étape', ''Journées Jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL)'', Nov 2022, Marseille, France. [https://hal.science/hal-03856363 texte].
 * Jouitteau, Mélanie. 2023. 'Guide de survie des langues minorisées à l’heure de l’intelligence artificielle : Appel aux communautés parlantes', ''Lapurdum'', [https://ling.auf.net/lingbuzz/007289 texte].
 * Jouitteau, M. 2023. 'Community Internally-driven Corpus Buildings. Three Examples from the Breton Ecosystem', ''Proc. 2nd Annual Meeting of the ELRA/ISCA SIG on Under-resourced Languages (SIGUL 2023)'', 103-107, doi: 10.21437/SIGUL.2023-22.
+* Schmidt T & K. Wörner. 2014. 'EXMARaLDA', ''Handbook on Corpus Phonology'', Oxford University Press, 402-419. https://exmaralda.org/en/about-exmaralda/
+: système pour travailler avec des corpus oraux numériques, comprenant un outil de transcription et d'annotation (Partitur-Editor), un outil de gestion de corpus (Corpus-Manager) un outil de requête et d'analyse (EXAKT).
+* Williams, G. C. & Christophe Ropers. 2007. 'Textes électroniques et corpus : pourquoi utiliser les normes de la TEI ?', Hédiard M. (éd.), ''Linguistica dei corpora: strumenti e applicazioni'', Cassino: Edizioni Università di Cassino, 23-44.

« Outils pour la constitution de ressources » : différence entre les versions

Dernière version du 17 avril 2025 à 12:57

Sommaire

Dimension juridique

formulaires de consentement

Projets

Ressources sous-produits

Cours en ligne, auto-formation

Bibliographie

Menu de navigation

« Outils pour la constitution de ressources » : différence entre les versions

Dernière version du 17 avril 2025 à 12:57

Dimension juridique

formulaires de consentement

Projets

Ressources sous-produits

Cours en ligne, auto-formation

Bibliographie

Menu de navigation

« Outils pour la constitution de ressources » : différence entre les versions