Recherche universitaire

De Entrelangues
Aller à la navigation Aller à la recherche

Transversaux

  • Entrelangues, plate-forme sur les langues de l'État français
Informations sur la vitalité, la sociologie et la linguistique, ainsi que sur les ressources de développement en traitement automatique.
Avec Mélanie Jouitteau (IKER, CNRS, UMR 5478, Centre de recherche sur la langue et les textes basques), Sylvain Kahane, Loic Grobol, Christophe Parisse (MoDyCo, Modèles, Dynamiques, Corpus, Université Paris Nanterre, UMR 7114).
  • GDR LIFT :
Le GDR LIFT (Linguistique Informatique, Formelle et de Terrain) met en contact linguistes formels et spécialistes du TAL avec un séminaire en ligne mensuel, que l'on peut suivre sur demande. Les langues à corpus restreint sont parfois présentes, et au-delà la question de la traitabilité IA des corpus restreints (problématiques d'acquisition du langage et des langues de spécialité).


Projets TAL concernant des langues à corpus restreint

[Projet-ANR-21-CE38-0017]
Induction de grammaires descriptives à partir de corpus annotés, résumé du projet.
le breton fait partie des langues concernées, avec la construction d'un treebank (corpus UD).
Avec le coordinateur Sylvain Kahane (MoDyCo, Modèles, Dynamiques, Corpus, Université Paris Nanterre, UMR 7114).
[Projet-ANR-21-CE27-0004]
Accroître la vitalité et la visibilité de plusieurs langues de France : l'alsacien, le corse, l'occitan et le poitevin-saintongeais, résumé de projet
Avec La coordinatrice Delphine Berhard de LiLPa (Linguistique, Langues et Parole), le CLLE (Cognition, Langues, Langage, Ergonomie), le FoReLLIS (Formes et Représentations en Linguistique, Littérature et dans les arts de l'Image et de la Scène), le LISA (Lieux, Identités, eSpaces et Activités)
Numérisation du patrimoine linguistique arménien : corpus multivarié arménien et traitement des données
avec Victoria Khurshudyan (Structure et Dynamique des Langues)
Approche typologique des asymétries spatiales à travers les langues
parmi les langues de l'enquête, quelques-unes de l'État français (langues kanak et polynésiennes, avec Claire Moyse-Faurie, LSF mentionnée)
Avec Benjamin Fagard
  • L'ANR SignToKids (2022-2025), dirigée par Sylvie Gibet (Université Bretagne Sud), développe avec le Modyco des outils numériques pédagogiques pour la LSF.
  • ANR TraLaLam (octobre 2023-).
Explorer la capacité de traduction des grands modèles de langues, en focalisant notamment sur les langues qui sont à la fois peu dotées et proches des langues bien dotées incluses dans les données d'entraînement.
Avec la coordinatrice Rachel Bawden (INRIA), Benoît Sagot (INRIA), François Yvon (CNRS), Systran (Josep Crego et Stanislas Assier de Pompignan).
  • Défi Inria COLaF (2023-2027)
Avec l'équipe Multispeech (INRIA, CNRS, LORIA) pour le traitement de la parole et l'équipe ALMAnaCH de l'INRIA pour le texte.
projet porté par Nicolas Quint, Le Croissant linguistique : une approche multidisciplinaire du contact oc-oïl, avec développement de corpus numériques.
marchois, bourbonnais d'oc
textes alignés multilingues occitan, français, anglais, serbe