Exemples de construction de corpus à partir du site OPUS
1)
Création
d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés de deux
noms et commençant par trade.
Le corpus permettra de vérifier :
-
dans quels cas trade est traduit en français par un groupe nominal
complément de nom (du commerce)
-
dans quels cas il est traduit par un adjectif
relationnel (commercial)
-
dans quels cas ni le mot commerce ni ses dérivés ne sont employés dans la traduction
française
http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en
Activation des onglets ES et FR pour la récupération des
traductions françaises et espagnoles.
Query
string |
"trade"
[tree="NN.*"] |
9615 hits found
Enregistrer le fichier sous le nom trade NN - EN SP FR au format HTML uniquement.
Transformer le tableau contenant les quatre champs (Speaker,
EN, ES, FR) en fichier délimité (TSV) au format TXT (codage UTF8) trade NN - EN SP FR.txt
Importer le fichier TXT dans Access (dans la boîte de
dialogue Avancé, spécifier que le caractère séparateur de champ est la
tabulation).
Filtre éventuel permettant d’éliminer de l’analyse la plupart
des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)
Champ Speaker |
Pas Comme
"*)*" |
Applications des filtres correspondant au type de traduction
employé :
Traductions par un complément de nom :
FR :
Comme "*commerce*" (754)
Traductions par un adjectif relationnel :
FR :
Comme "*commercia*" (2680)
Elimination du bruit (utilisation du verbe commercialiser ou du nom commercialisation)
Et Pas
Comme "*commercialis*" (2672)
La traduction par un complément de nom est employée dans 14%
des cas (754/5333).
La traduction par un adjectif relationnel est employée dans
50% des cas (2672/5333).
Traductions n’employant ni le mot commerce ni ses dérivés (1586)
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*"
L’exploration manuelle permet ensuite de repérer les cas de
figure les plus fréquents. Les n-grammes correspondant aux traductions
employées sont successivement ajoutés au filtre d’exclusion.
trade liberalisation |
libéralisation des échanges |
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*" Et Pas Comme "*échange*" |
|
968 |
|
|
|
trade interests |
intérêts économiques |
trade union |
syndicats |
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*" Et Pas Comme "*échange*" Et Pas Comme
"*économique*" Et Pas Comme "*syndica*" |
|
192 |
|
|
|
trade access |
accès à nos marchés |
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*" Et Pas Comme "*échange*" Et Pas Comme
"*économique*" Et Pas Comme "*syndica*"
Et Pas Comme "*marché*" |
|
173 |
|
|
|
trade mark courts |
tribunaux des marques communautaires |
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*" Et Pas Comme "*échange*" Et Pas Comme
"*économique*" Et Pas Comme "*syndica*"
Et Pas Comme "*marché*" Et Pas Comme "*marque*" |
|
133 |
|
|
|
trade fair |
salon professionnel |
trade association |
association professionnelle |
trade barriers |
barrières protectionnistes |
Pas Comme
"*commercia*" Et Pas Comme
"*commerce*" Et Pas Comme "*échange*" Et Pas Comme
"*économique*" Et Pas Comme "*syndica*"
Et Pas Comme "*marché*" Et Pas Comme "*marque*" |
|
2)
Création
d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés d’une
forme composée de type N-V+ing suivie d’un nom.
Le corpus permettra de vérifier :
-
quels sont les groupes nominaux de ce type les plus
fréquemment employés
-
quels sont les adjectifs de type N-V+ing les plus fréquemment employés
-
quels adjectifs ou groupes nominaux de haute fréquence
ne sont pas encore lexicalisés
-
quels adjectifs ou groupes nominaux de haute fréquence
n’ont pas encore d’ET stable
http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en
Activation des onglets ES et FR pour la récupération des
traductions françaises et espagnoles.
Query
string |
".*-.*ing"
[tree="NN.*"] |
Enregistrer le fichier sous le nom X-Xing NN - EN SP FR au format HTML
uniquement.
Enregistrer également une version ne contenant que la partie
anglaise du corpus sous le nom X-Xing NN - EN au format HTML uniquement.
Transformer le tableau contenant
les quatre champs (Speaker, EN, ES, FR) en fichier délimité (TSV) au format TXT
(codage UTF8) X-Xing NN - EN SP FR.txt
Transformer le tableau contenant le champ EN en fichier au
format TXT X-Xing NN – EN.txt
Le corpus unilingue ainsi
créé permettra l’identification et le décompte des bigrammes recherchés à
l’aide d’un concordancier.
Lors de son traitement, veiller à remplacer les
espaces insécables (^s) par des espaces, afin que les séquences étudiées soient
ultérieurement reconnues comme des bigrammes lors de l’exploitation du corpus
sous Monoconc.
Importer le fichier X-Xing NN - EN
SP FR.TXT dans Access (dans la boîte de dialogue Avancé, spécifier que le
caractère séparateur de champ est la tabulation).
Filtre éventuel permettant d’éliminer de l’analyse la plupart
des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)
Champ Speaker |
Pas Comme
"*)*" |
Applications des filtres correspondant au type de traduction
employé.
Etudier les variations des ET observés pour :
·
awareness-raising
·
confidence-building
·
ozone-depleting
·
wealth-producing