« OPAB (2009-2024) » : différence entre les versions

De Entrelangues
Aller à la navigation Aller à la recherche
Aucun résumé des modifications
Ligne 4 : Ligne 4 :
== Histoire éditoriale ==
== Histoire éditoriale ==


Contient trois corpus partiellement distincts, distribués entre 2009 et 2024 sur différents portails :
Contient trois corpus partiellement distincts, distribués par l'Office Public de la Langue Bretonne entre 2009 et 2024 sur différents portails, corrigé par Morgan Grobol et Mélanie Jouitteau :


* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. gros problèmes d'alignement.  
* Ofis publik ar brezhoneg. 2009. '''63.780''' paires '''fr-br''' 1M tokens, [https://opus.nlpl.eu/ en ligne sur OPUS]. gros problèmes d'alignement.  
Ligne 15 : Ligne 15 :
== Peignage qualitatif ==
== Peignage qualitatif ==


M. Jouitteau 12/01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (absence d'espace entre des mots, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs).  
M. Jouitteau 01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (absence d'espace entre des mots, espaces présents dans un mot, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs).  
 
N'ont pas été modifiés les traductions discutables mais usuelles, comme ''paotred/merc'hed'' traduit ''hommes/femmes'' quand c'est plus précisément ''garçons/filles'', ou "bretonnant" pour "brittophone".
 
: Exemple de correction:
 
* {"translation":{"br":"Skolidi vat, hogen...","fr":"Bonne élève, mais..."}}
: ↘
* {"translation":{"br":"Skolidi vat, hogen...","fr":"Bons élèves, mais..."}}
 


=== exs. de phrases retirées ===
=== exs. de phrases retirées ===


* {"translation":{"br":"Io, Europa ha Ganymede zo a-vent gant planedennoù bihan (3630 km, 3138 km ha 5268 km a-getep). Tost emaint d'o flanedenn (422 000 km, 671 000 km ha 1 070 000 km a-getep), treiñ a reont tost er memes plaen, hag er memes plaen emaint ha keheder Yaou (0,03°, 0,5° ha 0,3, a stou e-keñver keheder Yaou a-getep), ha tost kelc'hiek eo o c'helc'htro (ezkreizadezh 0,004, 0,009, 0,002 a-getep).","fr":"Plus originale est la situation des 3 premiers des satellites dits « galiléens » :"}}
* {"translation":{"br":"● 3 abadenn digustum :","fr":"● 3 figures insolites :"}}
* {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}}
* {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}}
* {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}}
* {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}}

Version du 23 janvier 2026 à 11:54

  • Ofis publik ar brezhoneg. 2026. comptage en progrès, compilation des corpus alignés fr-br 2009-2024 de l'Ofis, version corrigée par M. Grobol en ligne.


Histoire éditoriale

Contient trois corpus partiellement distincts, distribués par l'Office Public de la Langue Bretonne entre 2009 et 2024 sur différents portails, corrigé par Morgan Grobol et Mélanie Jouitteau :

  • Ofis publik ar brezhoneg. 2009. 63.780 paires fr-br 1M tokens, en ligne sur OPUS. gros problèmes d'alignement.
  • Ofis publik ar brezhoneg. 2020?. Corpus de phrases bilingues alignées, 4.532 paires fr-br, fichiers séparés, licence ODBL "Open Data Base License – ODBL". (une phrase en commun ("Ofis ar brezhoneg"), avec OPAB 2009).
  • Ofis publik ar brezhoneg. début 2024. Korpus divyezhek brezhoneg-galleg, 63.871 paires fr-br, breton standard, en ligne sur le portail numérique, CC-BY 4.0. le comptage donne des résultats non-stables - 63.372 paires comptées fin nov. 2023, alors annoncées 62.861 sur le portail de l'Ofis. Il y avait alors 16.586 phrases en doublon avec OPAB 2009, 4 phrases en doublon avec OPAB 2020.


Peignage qualitatif

M. Jouitteau 01/2026, a vérifié quelques alignements, et a opéré par la même occasion quelques nettoyages de coquilles (absence d'espace entre des mots, espaces présents dans un mot, faute d'orthographe en français, traduction d'un sujet pluriel en sujet singulier, etc.), et retiré des exemples erronés (traduction du breton en breton, non-sequiturs).

N'ont pas été modifiés les traductions discutables mais usuelles, comme paotred/merc'hed traduit hommes/femmes quand c'est plus précisément garçons/filles, ou "bretonnant" pour "brittophone".

Exemple de correction:
  • {"translation":{"br":"Skolidi vat, hogen...","fr":"Bonne élève, mais..."}}
  • {"translation":{"br":"Skolidi vat, hogen...","fr":"Bons élèves, mais..."}}


exs. de phrases retirées

  • {"translation":{"br":"Io, Europa ha Ganymede zo a-vent gant planedennoù bihan (3630 km, 3138 km ha 5268 km a-getep). Tost emaint d'o flanedenn (422 000 km, 671 000 km ha 1 070 000 km a-getep), treiñ a reont tost er memes plaen, hag er memes plaen emaint ha keheder Yaou (0,03°, 0,5° ha 0,3, a stou e-keñver keheder Yaou a-getep), ha tost kelc'hiek eo o c'helc'htro (ezkreizadezh 0,004, 0,009, 0,002 a-getep).","fr":"Plus originale est la situation des 3 premiers des satellites dits « galiléens » :"}}
  • {"translation":{"br":"● 3 abadenn digustum :","fr":"● 3 figures insolites :"}}
  • {"translation":{"br":"evit staliañ panelloù divyezhek dre hanterouriezh","fr":"financière pour la pour la pose de panneaux bilingues par le biais du"}}
  • {"translation":{"br":"eo bet ganet","fr":"Inscrites sur l’acte postérieurement à l’établissement du présent extrait."}}
  • {"translation":{"br":"eo ar goulenn a-berzh an enfrederien eget ar c'hinnig ha kenderc'hel","fr":"demande est supérieure à l'offre et continue de"}}
  • {"translation":{"br":"er penn-kentañ ez ae an dud da gouronkañ er mor","fr":"les bains de mer sont davantage à"}}
  • {"translation":{"br":"evel ar c'hledour touristerezh","fr":"la construction du kiosque de tourisme"}}
  • {"translation":{"br":"e vo lamet an diferadenn a varregezh hollek digant an departamantoù hag ar rannvroioù,","fr":"la suppression de la clause générale de compétence des départements et Régions,"}}
  • {"translation":{"br":"ez eus 8000 brezhoneger","fr":"On évalue à 8000 le nombre de locuteurs"}}
  • {"translation":{"br":"gant an aotrou","fr":"notaire à"}}
  • {"translation":{"br":"gant ar C'hresianed) :","fr":"grecs) :"}}
  • {"translation":{"br":"gant ar gelennerien.","fr":"Nationale"}}
  • {"translation":{"br":"gant tresoù brav »","fr":"ne manquent pas de sel »"}}
l'extrait doublait un contexte phrasal plus grand, de traduction plutôt lâche, qui a été gardé:
{"translation":{"br":"Blazet eo ma c'hig gant holen ha kinklet ma dilhad gant tresoù brav","fr":"La viande que je conserve et les motifs qui m'habillent ne manquent pas de sel"}}