« OPAB (2009-2024) » : différence entre les versions
Aller à la navigation
Aller à la recherche
Aucun résumé des modifications |
|||
| (6 versions intermédiaires par le même utilisateur non affichées) | |||
| Ligne 1 : | Ligne 1 : | ||
* Ofis publik ar brezhoneg. 2026. '''comptage en progrès''' '''fr-br''' | * Ofis publik ar brezhoneg. 2026. '''comptage en progrès''', compilation des corpus alignés '''fr-br''' 2009-2024 de l'Ofis, version corrigée par M. Grobol [https://gitlab.huma-num.fr/kytym/korpusou/-/blob/main/corpora/OfisPublik_merged/data/all.jsonl?ref_type=heads en ligne]. | ||
== Histoire éditoriale == | |||
* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. problèmes d'alignement. | Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails : | ||
* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. gros problèmes d'alignement. | |||
* Ofis publik ar brezhoneg. 2020?. ''[https://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm Corpus de phrases bilingues alignées]'', '''4.532''' paires '''fr-br''', fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009). | * Ofis publik ar brezhoneg. 2020?. ''[https://www.fr.brezhoneg.bzh/212-donnees-libres-de-droits.htm Corpus de phrases bilingues alignées]'', '''4.532''' paires '''fr-br''', fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009). | ||
* Ofis publik ar brezhoneg. début 2024. ''Korpus divyezhek brezhoneg-galleg'', '''63.871''' paires '''fr-br''', breton standard, [https://github.com/Ofis-publik-ar-brezhoneg/breton-french-corpus en ligne] sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020. | * Ofis publik ar brezhoneg. début 2024. ''Korpus divyezhek brezhoneg-galleg'', '''63.871''' paires '''fr-br''', breton standard, [https://github.com/Ofis-publik-ar-brezhoneg/breton-french-corpus en ligne] sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020. | ||
== Peignage qualitatif == | |||
M. Jouitteau 12/01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (mots tout attachés, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs). | |||
=== exs. de phrases retirées === | |||
* {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}} | |||
* {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}} | |||
* {"translation":{"br":"eo ar goulenn a-berzh an enfrederien eget ar c'hinnig ha kenderc'hel","fr":"demande est supérieure à l'offre et continue de"}} | |||
* {"translation":{"br":"er penn-kentañ ez ae an dud da gouronkañ er mor","fr":"les bains de mer sont davantage à"}} | |||
* {"translation":{"br":"evel ar c'hledour touristerezh","fr":"la construction du kiosque de tourisme"}} | |||
* {"translation":{"br":"e vo lamet an diferadenn a varregezh hollek digant an departamantoù hag ar rannvroioù,","fr":"la suppression de la clause générale de compétence des départements et Régions,"}} | |||
* {"translation":{"br":"ez eus 8000 brezhoneger","fr":"On évalue à 8000 le nombre de locuteurs"}} | |||
* {"translation":{"br":"gant an aotrou","fr":"notaire à"}} | |||
* {"translation":{"br":"gant ar C'hresianed) :","fr":"grecs) :"}} | |||
* {"translation":{"br":"gant ar gelennerien.","fr":"Nationale"}} | |||
* {"translation":{"br":"gant tresoù brav »","fr":"ne manquent pas de sel »"}} | |||
: l'extrait doublait un contexte phrasal plus grand, de traduction plutôt lâche, qui a été gardé: | |||
: {"translation":{"br":"Blazet eo ma c'hig gant holen ha kinklet ma dilhad gant tresoù brav","fr":"La viande que je conserve et les motifs qui m'habillent ne manquent pas de sel"}} | |||
[[Category:TAL|Categories]] | [[Category:TAL|Categories]] | ||
[[Category:TAL breton|Categories]] | [[Category:TAL breton|Categories]] | ||
Dernière version du 12 janvier 2026 à 22:04
- Ofis publik ar brezhoneg. 2026. comptage en progrès, compilation des corpus alignés fr-br 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.
Histoire éditoriale
Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :
- Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. gros problèmes d'alignement.
- Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
- Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.
Peignage qualitatif
M. Jouitteau 12/01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (mots tout attachés, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs).
exs. de phrases retirées
- {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}}
- {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}}
- {"translation":{"br":"eo ar goulenn a-berzh an enfrederien eget ar c'hinnig ha kenderc'hel","fr":"demande est supérieure à l'offre et continue de"}}
- {"translation":{"br":"er penn-kentañ ez ae an dud da gouronkañ er mor","fr":"les bains de mer sont davantage à"}}
- {"translation":{"br":"evel ar c'hledour touristerezh","fr":"la construction du kiosque de tourisme"}}
- {"translation":{"br":"e vo lamet an diferadenn a varregezh hollek digant an departamantoù hag ar rannvroioù,","fr":"la suppression de la clause générale de compétence des départements et Régions,"}}
- {"translation":{"br":"ez eus 8000 brezhoneger","fr":"On évalue à 8000 le nombre de locuteurs"}}
- {"translation":{"br":"gant an aotrou","fr":"notaire à"}}
- {"translation":{"br":"gant ar C'hresianed) :","fr":"grecs) :"}}
- {"translation":{"br":"gant ar gelennerien.","fr":"Nationale"}}
- {"translation":{"br":"gant tresoù brav »","fr":"ne manquent pas de sel »"}}
- l'extrait doublait un contexte phrasal plus grand, de traduction plutôt lâche, qui a été gardé:
- {"translation":{"br":"Blazet eo ma c'hig gant holen ha kinklet ma dilhad gant tresoù brav","fr":"La viande que je conserve et les motifs qui m'habillent ne manquent pas de sel"}}