« OPAB (2009-2024) » : différence entre les versions

De Entrelangues
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Ligne 6 : Ligne 6 :
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :


* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. problèmes d'alignement.  
* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. gros problèmes d'alignement.  


* Ofis publik ar brezhoneg. 2020?. ''[https://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm Corpus de phrases bilingues alignées]'', '''4.532''' paires '''fr-br''', fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
* Ofis publik ar brezhoneg. 2020?. ''[https://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm Corpus de phrases bilingues alignées]'', '''4.532''' paires '''fr-br''', fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).

Version du 12 janvier 2026 à 13:19

  • Ofis publik ar brezhoneg. 2026. comptage en progrès, compilation des corpus alignés fr-br 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.


Histoire éditoriale

Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :

  • Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. gros problèmes d'alignement.
  • Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
  • Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.