Exemples de construction de corpus à partir du site OPUS

1) Création d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés de deux noms et commençant par trade.

Le corpus permettra de vérifier :

- dans quels cas trade est traduit en français par un groupe nominal complément de nom (du commerce)

- dans quels cas il est traduit par un adjectif relationnel (commercial)

- dans quels cas ni le mot commerce ni ses dérivés ne sont employés dans la traduction française

http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en

Activation des onglets ES et FR pour la récupération des traductions françaises et espagnoles.

Query string

"trade" [tree="NN.*"]

9615 hits found

Enregistrer le fichier sous le nom trade NN - EN SP FR au format HTML uniquement.

Transformer le tableau contenant les quatre champs (Speaker, EN, ES, FR) en fichier délimité (TSV) au format TXT (codage UTF8) trade NN - EN SP FR.txt

Importer le fichier TXT dans Access (dans la boîte de dialogue Avancé, spécifier que le caractère séparateur de champ est la tabulation).

Filtre éventuel permettant d’éliminer de l’analyse la plupart des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)

Champ Speaker

Pas Comme "*)*"

Applications des filtres correspondant au type de traduction employé :

Traductions par un complément de nom :

FR : Comme "*commerce*" (754)

Traductions par un adjectif relationnel :

FR : Comme "*commercia*" (2680)

Elimination du bruit (utilisation du verbe commercialiser ou du nom commercialisation)

Et Pas Comme "*commercialis*" (2672)

La traduction par un complément de nom est employée dans 14% des cas (754/5333).

La traduction par un adjectif relationnel est employée dans 50% des cas (2672/5333).

Traductions n’employant ni le mot commerce ni ses dérivés (1586)

Pas Comme "*commercia*" Et Pas Comme "*commerce*"

L’exploration manuelle permet ensuite de repérer les cas de figure les plus fréquents. Les n-grammes correspondant aux traductions employées sont successivement ajoutés au filtre d’exclusion.

trade liberalisation	libéralisation des échanges
Pas Comme "commercia" Et Pas Comme "commerce" Et Pas Comme "échange"
968

trade interests	intérêts économiques
trade union	syndicats
Pas Comme "commercia" Et Pas Comme "commerce" Et Pas Comme "échange" Et Pas Comme "économique" Et Pas Comme "syndica"
192

trade access	accès à nos marchés
Pas Comme "commercia" Et Pas Comme "commerce" Et Pas Comme "échange" Et Pas Comme "économique" Et Pas Comme "syndica" Et Pas Comme "marché"
173

trade mark courts	tribunaux des marques communautaires
Pas Comme "commercia" Et Pas Comme "commerce" Et Pas Comme "échange" Et Pas Comme "économique" Et Pas Comme "syndica" Et Pas Comme "marché" Et Pas Comme "marque"
133

trade fair	salon professionnel
trade association	association professionnelle
trade barriers	barrières protectionnistes
Pas Comme "commercia" Et Pas Comme "commerce" Et Pas Comme "échange" Et Pas Comme "économique" Et Pas Comme "syndica" Et Pas Comme "marché" Et Pas Comme "marque"

2) Création d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés d’une forme composée de type N-V+ing suivie d’un nom.

Le corpus permettra de vérifier :

- quels sont les groupes nominaux de ce type les plus fréquemment employés

- quels sont les adjectifs de type N-V+ing les plus fréquemment employés

- quels adjectifs ou groupes nominaux de haute fréquence ne sont pas encore lexicalisés

- quels adjectifs ou groupes nominaux de haute fréquence n’ont pas encore d’ET stable

http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en

Activation des onglets ES et FR pour la récupération des traductions françaises et espagnoles.

Query string

".*-.*ing" [tree="NN.*"]

Enregistrer le fichier sous le nom X-Xing NN - EN SP FR au format HTML uniquement.

Enregistrer également une version ne contenant que la partie anglaise du corpus sous le nom X-Xing NN - EN au format HTML uniquement.

Transformer le tableau contenant les quatre champs (Speaker, EN, ES, FR) en fichier délimité (TSV) au format TXT (codage UTF8) X-Xing NN - EN SP FR.txt

Transformer le tableau contenant le champ EN en fichier au format TXT X-Xing NN – EN.txt

Le corpus unilingue ainsi créé permettra l’identification et le décompte des bigrammes recherchés à l’aide d’un concordancier.

Lors de son traitement, veiller à remplacer les espaces insécables (^s) par des espaces, afin que les séquences étudiées soient ultérieurement reconnues comme des bigrammes lors de l’exploitation du corpus sous Monoconc.

Importer le fichier X-Xing NN - EN SP FR.TXT dans Access (dans la boîte de dialogue Avancé, spécifier que le caractère séparateur de champ est la tabulation).

Filtre éventuel permettant d’éliminer de l’analyse la plupart des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)

Champ Speaker

Pas Comme "*)*"

Applications des filtres correspondant au type de traduction employé.

Etudier les variations des ET observés pour :

· awareness-raising

· confidence-building

· ozone-depleting

· wealth-producing