« OPAB (2009-2024) » : différence entre les versions
Aller à la navigation
Aller à la recherche
(Page créée avec « * Ofis publik ar brezhoneg. 2026. '''comptage en progrès''' '''fr-br''', compilation des corpus alignés 2009-2024 de l'Ofis, version corrigée par M. Grobol [https://gitlab.huma-num.fr/kytym/korpusou/-/blob/main/corpora/OfisPublik_merged/data/all.jsonl?ref_type=heads en ligne]. Contient trois corpus partiellement distincts: * Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. problèmes d'ali... ») |
Aucun résumé des modifications |
||
| Ligne 9 : | Ligne 9 : | ||
* Ofis publik ar brezhoneg. début 2024. ''Korpus divyezhek brezhoneg-galleg'', '''63.871''' paires '''fr-br''', breton standard, [https://github.com/Ofis-publik-ar-brezhoneg/breton-french-corpus en ligne] sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020. | * Ofis publik ar brezhoneg. début 2024. ''Korpus divyezhek brezhoneg-galleg'', '''63.871''' paires '''fr-br''', breton standard, [https://github.com/Ofis-publik-ar-brezhoneg/breton-french-corpus en ligne] sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020. | ||
[[Category:TAL|Categories]] | |||
[[Category:TAL breton|Categories]] | |||
Version du 12 janvier 2026 à 11:56
- Ofis publik ar brezhoneg. 2026. comptage en progrès fr-br, compilation des corpus alignés 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.
Contient trois corpus partiellement distincts:
- Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. problèmes d'alignement.
- Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
- Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.