« OPAB (2009-2024) » : différence entre les versions
Aller à la navigation
Aller à la recherche
Aucun résumé des modifications |
Aucun résumé des modifications |
||
| Ligne 2 : | Ligne 2 : | ||
Contient trois corpus partiellement distincts: | == Histoire éditoriale == | ||
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails : | |||
* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. problèmes d'alignement. | * Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. problèmes d'alignement. | ||
Version du 12 janvier 2026 à 11:56
- Ofis publik ar brezhoneg. 2026. comptage en progrès fr-br, compilation des corpus alignés 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.
Histoire éditoriale
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :
- Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. problèmes d'alignement.
- Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
- Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.