Exemples de construction de corpus à partir du site OPUS

 

1)    Création d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés de deux noms et commençant par trade.

Le corpus permettra de vérifier :

-          dans quels cas trade est traduit en français par un groupe nominal complément de nom (du commerce)

-          dans quels cas il est traduit par un adjectif relationnel (commercial)

-          dans quels cas ni le mot commerce ni ses dérivés ne sont employés dans la traduction française

http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en

Activation des onglets ES et FR pour la récupération des traductions françaises et espagnoles.

Query string

"trade" [tree="NN.*"]

 

9615 hits found

Enregistrer le fichier sous le nom trade NN - EN SP FR au format HTML uniquement.

Transformer le tableau contenant les quatre champs (Speaker, EN, ES, FR) en fichier délimité (TSV) au format TXT (codage UTF8)                                               trade NN - EN SP FR.txt

Importer le fichier TXT dans Access (dans la boîte de dialogue Avancé, spécifier que le caractère séparateur de champ est la tabulation).

Filtre éventuel permettant d’éliminer de l’analyse la plupart des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)

Champ Speaker

Pas Comme "*)*"

 

Applications des filtres correspondant au type de traduction employé :

Traductions par un complément de nom :

FR : Comme "*commerce*" (754)

Traductions par un adjectif relationnel :

FR : Comme "*commercia*" (2680)

Elimination du bruit (utilisation du verbe commercialiser ou du nom commercialisation)

Et Pas Comme "*commercialis*" (2672)

La traduction par un complément de nom est employée dans 14% des cas (754/5333).

La traduction par un adjectif relationnel est employée dans 50% des cas (2672/5333).

 

Traductions n’employant ni le mot commerce ni ses dérivés (1586)

Pas Comme "*commercia*" Et Pas Comme "*commerce*"

 

L’exploration manuelle permet ensuite de repérer les cas de figure les plus fréquents. Les n-grammes correspondant aux traductions employées sont successivement ajoutés au filtre d’exclusion.

 

trade liberalisation

libéralisation des échanges

Pas Comme "*commercia*" Et Pas Comme "*commerce*" Et Pas Comme "*échange*"

 

968

 

 

 

trade interests

intérêts économiques

trade union

syndicats

Pas Comme "*commercia*" Et Pas Comme "*commerce*" Et Pas Comme "*échange*" Et Pas Comme "*économique*" Et Pas Comme "*syndica*"

 

192

 

 

 

trade access

accès à nos marchés

Pas Comme "*commercia*" Et Pas Comme "*commerce*" Et Pas Comme "*échange*" Et Pas Comme "*économique*" Et Pas Comme "*syndica*" Et Pas Comme "*marché*"

 

173

 

 

 

trade mark courts

tribunaux des marques communautaires

Pas Comme "*commercia*" Et Pas Comme "*commerce*" Et Pas Comme "*échange*" Et Pas Comme "*économique*" Et Pas Comme "*syndica*" Et Pas Comme "*marché*" Et Pas Comme "*marque*"

 

133

 

 

 

trade fair

salon professionnel

trade association

association professionnelle

trade barriers

barrières protectionnistes

Pas Comme "*commercia*" Et Pas Comme "*commerce*" Et Pas Comme "*échange*" Et Pas Comme "*économique*" Et Pas Comme "*syndica*" Et Pas Comme "*marché*" Et Pas Comme "*marque*"

 

 

2)    Création d’un corpus bilingue EN-FR de phrases contenant des bigrammes formés d’une forme composée de type N-V+ing suivie d’un nom.

Le corpus permettra de vérifier :

-          quels sont les groupes nominaux de ce type les plus fréquemment employés

-          quels sont les adjectifs de type N-V+ing les plus fréquemment employés

-          quels adjectifs ou groupes nominaux de haute fréquence ne sont pas encore lexicalisés

-          quels adjectifs ou groupes nominaux de haute fréquence n’ont pas encore d’ET stable

http://opus.nlpl.eu/bin/opuscqp.pl?corpus=Europarl;lang=en

Activation des onglets ES et FR pour la récupération des traductions françaises et espagnoles.

Query string

".*-.*ing" [tree="NN.*"]

 

Enregistrer le fichier sous le nom X-Xing NN - EN SP FR au format HTML uniquement.

Enregistrer également une version ne contenant que la partie anglaise du corpus sous le nom X-Xing NN - EN au format HTML uniquement.

Transformer le tableau contenant les quatre champs (Speaker, EN, ES, FR) en fichier délimité (TSV) au format TXT (codage UTF8)                        X-Xing NN - EN SP FR.txt

Transformer le tableau contenant le champ EN en fichier au format TXT                                                                                                                      X-Xing NN – EN.txt

Le corpus unilingue ainsi créé permettra l’identification et le décompte des bigrammes recherchés à l’aide d’un concordancier.

Lors de son traitement, veiller à remplacer les espaces insécables (^s) par des espaces, afin que les séquences étudiées soient ultérieurement reconnues comme des bigrammes lors de l’exploitation du corpus sous Monoconc.

 

Importer le fichier X-Xing NN - EN SP FR.TXT dans Access (dans la boîte de dialogue Avancé, spécifier que le caractère séparateur de champ est la tabulation).

Filtre éventuel permettant d’éliminer de l’analyse la plupart des orateurs qui se sont exprimés dans d’autres langues que l’anglais (5333)

Champ Speaker

Pas Comme "*)*"

 

Applications des filtres correspondant au type de traduction employé.

Etudier les variations des ET observés pour :

·         awareness-raising

·         confidence-building

·         ozone-depleting

·         wealth-producing