Repérage des suites de deux noms dans la partie anglaise du corpus « Agriculture »

1)      Dans Access, importer le fichier agriculture.txt dans une table, puis créer un formulaire contenant uniquement le champ « English »

2)      L’exporter vers un fichier RTF (lui donner le nom agri_en)

3)      Ouvrir ce fichier dans Word et l’enregistrer au format Texte Brut (lui donner le nom agri_en)

4)      Ouvrir un document vierge dans Word et y insérer le fichier agri_en.txt

5)      L’enregistrer sous le nom agri_en_brill.doc

6)      Remplacer la suite point par espace point et la suite virgule espace par espace virgule espace

7)      Remplacer tous les autres signes de ponctuation ( ; ! ? ) par un espace suivi du signe de ponctuation. 

8)      Remplacer les parenthèses ouvrantes par parenthèse + espace

9)      Remplacer les parenthèses fermantes par espace + parenthèse

N.B. Pour le prétraitement des fichiers en français, il faudrait ici  remplacer les apostrophes par la suite <apostrophe espace> (l'autre jour, il n'a pas pu s'en souvenir --> l' autre jour, il n' a pas pu s' en souvenir).

10) Remplacer les espaces doubles par des espaces uniques jusqu’à les éliminer totalement.

 11)  Enregistrer le fichier au format Texte Brut et le faire étiqueter par Winbrill, en donnant le nom agri_en_tagged au fichier résultat.

12)  Ouvrir le fichier agri_en_tagged dans le logiciel Monoconc.

13) Rechercher les occurrences des suites distinctes de deux formes nominales de fréquence supérieure à 7 dans le corpus.

14) Relever leurs traductions dans la table Agriculture sous Access, et envoyer la liste ainsi obtenue dans le corps d'un courriel à francois.maniez@univ-lyon2.fr

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

15) Effectuer le même type de recherche sur la partie française du corpus bilingue  health en recherchant les traductions des formes nominales suivies de participes présents.