« OPAB (2009-2024) » : différence entre les versions
Aller à la navigation
Aller à la recherche
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 1 : | Ligne 1 : | ||
* Ofis publik ar brezhoneg. 2026. '''comptage en progrès''' '''fr-br''' | * Ofis publik ar brezhoneg. 2026. '''comptage en progrès''', compilation des corpus alignés '''fr-br''' 2009-2024 de l'Ofis, version corrigée par M. Grobol [https://gitlab.huma-num.fr/kytym/korpusou/-/blob/main/corpora/OfisPublik_merged/data/all.jsonl?ref_type=heads en ligne]. | ||
Version du 12 janvier 2026 à 13:18
- Ofis publik ar brezhoneg. 2026. comptage en progrès, compilation des corpus alignés fr-br 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.
Histoire éditoriale
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :
- Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. problèmes d'alignement.
- Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
- Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.