OPAB (2009-2024)

De Entrelangues
Aller à la navigation Aller à la recherche
  • Ofis publik ar brezhoneg. 2026. en progrès, compilation corrigée des corpus alignés fr-br 2009-2024 de l'Ofis.
version corrigée de la fusion 2009-2020 en ligne.
Version corrigée du 2024. en ligne.


Histoire éditoriale

Ce corpus résulte de la fusion de trois corpus partiellement distincts distribués par l'Office Public de la Langue Bretonne entre 2009 et 2024 sur différents portails. L'ensemble a été dédoublonné, nettoyé corrigé par Morgan Grobol et Mélanie Jouitteau :

  • Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. gros problèmes d'alignement.
  • Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
  • Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.

Peignage qualitatif

M. Jouitteau 01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (absence d'espace entre des mots, espaces présents dans un mot, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs).

N'ont pas été modifiés les traductions discutables mais usuelles, comme paotred/merc'hed traduit hommes/femmes quand c'est plus précisément garçons/filles, ou "bretonnant" pour "brittophone".

Exemple de correction:
  • {"translation":{"br":"Skolidi vat, hogen...","fr":"Bonne élève, mais..."}}
  • {"translation":{"br":"Skolidi vat, hogen...","fr":"Bons élèves, mais..."}}


exs. de phrases retirées

{"translation":{"br":"Prezidantez Ofis ar Brezhoneg","fr":"Léna Louarn, Présidente de l'Office de la Langue Bretonne et Marc Gontard, Président de l'Université Rennes 2 - Haute Bretagne sont heureux de vous inviter à la signature de la Charte \"Ya d'ar Brezhoneg !\""}}

  • {"translation":{"br":"Io, Europa ha Ganymede zo a-vent gant planedennoù bihan (3630 km, 3138 km ha 5268 km a-getep). Tost emaint d'o flanedenn (422 000 km, 671 000 km ha 1 070 000 km a-getep), treiñ a reont tost er memes plaen, hag er memes plaen emaint ha keheder Yaou (0,03°, 0,5° ha 0,3, a stou e-keñver keheder Yaou a-getep), ha tost kelc'hiek eo o c'helc'htro (ezkreizadezh 0,004, 0,009, 0,002 a-getep).","fr":"Plus originale est la situation des 3 premiers des satellites dits « galiléens » :"}}
  • {"translation":{"br":"● 3 abadenn digustum :","fr":"● 3 figures insolites :"}}
  • {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}}
  • {"translation":{"br":"E-unan en deus desket Pierre Gilles e vicher hag alies-mat eo bet o chom e Pont-Aven.","fr":"Elle a aussi réalisé en 1998-1999 des gravures de grand format tirées à l'atelier Tugdual à Cancale."}}
  • {"translation":{"br":"Prezegenn gant Martial Menard ma vo kinniget gantañ e oberenn ziwezhañ, ur geriadur galleg/brezhoneg.","fr":"Conférence de Martial Ménard qui présentera son dictionnaire français-breton édité chez Palantines."}}
  • {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}}
  • {"translation":{"br":"eo ar goulenn a-berzh an enfrederien eget ar c'hinnig ha kenderc'hel","fr":"demande est supérieure à l'offre et continue de"}}
  • {"translation":{"br":"er penn-kentañ ez ae an dud da gouronkañ er mor","fr":"les bains de mer sont davantage à"}}
  • {"translation":{"br":"evel ar c'hledour touristerezh","fr":"la construction du kiosque de tourisme"}}
  • {"translation":{"br":"e vo lamet an diferadenn a varregezh hollek digant an departamantoù hag ar rannvroioù,","fr":"la suppression de la clause générale de compétence des départements et Régions,"}}
  • {"translation":{"br":"ez eus 8000 brezhoneger","fr":"On évalue à 8000 le nombre de locuteurs"}}
  • {"translation":{"br":"EIBHLIN.","fr":"EIBHLIN."}}
  • {"translation":{"br":"gant an aotrou","fr":"notaire à"}}
  • {"translation":{"br":"gant ar C'hresianed) :","fr":"grecs) :"}}
  • {"translation":{"br":"gant ar gelennerien.","fr":"Nationale"}}
  • {"translation":{"br":"gant tresoù brav »","fr":"ne manquent pas de sel »"}}
l'extrait doublait un contexte phrasal plus grand, de traduction plutôt lâche, qui a été gardé:
{"translation":{"br":"Blazet eo ma c'hig gant holen ha kinklet ma dilhad gant tresoù brav","fr":"La viande que je conserve et les motifs qui m'habillent ne manquent pas de sel"}}