Création et utilisation d’un corpus monolingue

 

A - CRÉATION DU CORPUS SUR LE PIRATAGE INFORMATIQUE

·         Aller sur l'Intranet du site de l’Université Lyon 2

·         Cliquer sur Documentation

·         Cliquer sur Bibliothèque électronique

  • Choisir la base de données Factiva (lettres EF)
  • Dans l’onglet « Recherche guidée », choisir les mots "piratage" et "logiciel", la date « Au cours de l’année précédente » et lancer la recherche
  • Dans l’onglet « Identifier les doublons », cocher le choix « Similaire »
  • Sélectionner les titres 1 à 100 (icone rouge) et les télécharger (format de téléchargement : RTF, format article complet)
  • Désélectionner les titres 1 à 100, cliquer sur les 100 suivants et sélectionner les titres 101 à 200
  • Répéter l’opération jusqu’à l’enregistrement de la totalité des résultats au format texte.

B - CRÉATION DU CORPUS DE REFERENCE

  • Dans l’onglet « Recherche guidée », choisir les mot « être » « avoir » et  « faire » et la date « Au cours du dernier mois » et lancer la recherche
  • Compiler un corpus de taille comparable au précédent (400 titres)

C - Pré-traitement DES CORPUS  

  • Ouvrir chacun des fichiers avec Word, et l’enregistrer au format « Texte seul » sous le nom piratage_logiciel_n.txt pour le corpus portant sur le piratage, et corpus_ref_n.txt pour le corpus de référence (n représentant un nombre distinct pour chaque fichier)

·         Ouvrir l’utilitaire ReplaceText et y importer un tableau de remplacement permettant la dissociation des mots et des signes de ponctuation (menu File Import Search/Replace Table).

·         Effectuer ces remplacements dans tous les fichiers enregistrés précédemment

D - UTILISATION DU CORPUS SOUS ANTCONC

Télécharger AntConc : http://www.antlab.sci.waseda.ac.jp/antconc_index.html

dans le dossier de Mes Documents qui porte votre nom

Double-cliquer sur AntConc pour le lancer.

 

 

File – Open File(s) : charger les fichiers du corpus portant sur le piratage

 

1) Génération d’une liste des mots du texte

 

Word List – Start     Affiche la liste des mots du texte

 

2) Génération des mots-clés

 

Tool Preferences – Keyword List

 

Reference Corpus Options : Use raw file(s)

Choose Files : choisir les fichiers du corpus de référence

 

Keyword List - Start 

 

3) Prise en compte d’une liste d’exclusion des mots-outils (Stop List)

 

Tool Preferences – Word List

Word List Range Option

Use a stop list listed below

Add Words From File – Open – stop_list_fr – Apply

Treat all data as lowercase

 

 

4) Fonctions de base

 

intellectuelle

 

Concordance - Start

 

File View  Start      donne accès en plein texte, les occurrences du mot recherché étant en bleu.

 

Clusters – Start        donne les groupes de 2 mots les plus fréquents contenant le mot recherché.

 

Collocates - Start    donne les collocats et leur indice (Stat) de probabilité de cooccurrence.

 

Relancer avec :

Min. Collocate Frequency=3

 

Clusters   Cluster Size : Max. Size=4, Min. Cluster Frequency=4

logiciel*  

Sort by Word   permet d’isoler toutes les formes commençant par le mot logiciel(s).

 

 

5) Signification des caractères joker (les cellules en rouge indiquent les différences avec le concordancier Monoconc)

 

Global Settings – Wildcards

 

* = zero or more characters

pirat*

+ = zero or one character

contrefaçon+

? = any one character

p?uv?nt

@ = zero or one word

piratage@logiciel+ (désactiver la liste d’exclusion)

# = any one word

 

| = search term OR search term

piratage|contrefaçon (Sort)

 

6) Création d’une liste de mots-clés

 

Charger dans Antconc le corpus sur le piratage informatique

Télécharger et décompresser le corpus de référence (Chambers-Rostand Corpus of Journalistic French)

 

Tool Preferences – Keyword List

 

Reference Corpus Options – Use Raw Files – Choose Files

 

Charger la totalité du corpus de référence - Apply

 

Keyword List

 

7) Exemples de requêtes

 

a) Occurrences de logiciel au singulier ou au pluriel, suivi du mot pirate ou piraté.

 

·       Concordance

·       logiciel+ pirat?+

 

Pour obtenir le décompte de ces formes (équivalent de Alt-Q-A dans Monoconc) :

 

·       Clusters

·       Cluster size : 2

·       Search Term Position : On Left

 

b) Mots commençant par cyber

 

·       Concordance

·       cyber*

 

·       Clusters

·       Cluster size : 1

·       Tool Preferences – Clusters - Treat all data as lowercase – Apply

 

c) Cooccurrences de pirate(s) et Internet

 

·       Concordance

·       Advanced

·       Cocher Use search terms from list below et Use Contexts Words and Horizons

·       Search term : pirate+

·       Context Words : Internet

·       Add

·       Context Horizon : From 5L to 5R

·       Apply

 

d) Pour afficher et enregistrer une liste de collocats d’un mot donné

                                                                                                                      

Recherche des qualificatifs ou compléments des mots piratage et contrefaçon

·       piratage|contrefaçon

·       1R To 2R

·       Min. Collocate Frequency=5

·       Sort by Stat

 

Recherche des mots dont l’expression en ligne est le complément.

 

·       en ligne

·       1L To 1L

·       Min. Collocate Frequency=3

·       Sort by Stat

 

File Save Output to Text File

 

Exercice d’application

 

1.   Recherche des qualificatifs ou compléments du verbe télécharger ou du nom téléchargement.

2.   Recherche des noms qualifiés par l’adjectif numérique.

3.   Décompte des mots commençant par crim.

4.   Recherche des contextes de cooccurrence (cinq mots à droite et à gauche) des mots contrefaçon etChine.

 

E - UTILISATION DU CORPUS SOUS MONOCONC

  • Lancer le concordancier Monoconc
  • Charger votre corpus (File – Load Corpus files); la taille totale du corpus en mots s'affiche dans la barre d'état.
  • Chercher les occurrences de vos mots-clés (Concordance - Search, ou Ctrl+S)
  • Rechercher l'ensemble des formes du nom logiciel (singulier et pluriel) en utilisant la syntaxe : logiciel%
  • Rechercher l'ensemble des formes du mot logiciel (nom et adjectif) en utilisant la syntaxe : logiciel*
  • Dans le menu Frequency, choisir Frequency Options, puis sélectionner "Count all words" dans la partie de la fenêtre intitulée "Stop List Options"
  • Dans le menu Frequency, choisir Collocate Frequency Data (Ctrl+F)
  • Le tableau fournit la liste des mots les plus employés dans l'environnement du mot recherché, classés par fréquence descendante
  • Télécharger la liste des mots vides
  • Dans le menu Frequency, choisir Frequency Options, puis sélectionner "Content words only" dans la partie de la fenêtre intitulée "Stop List Options"
  • Cliquer sur Edit
  • Cliquer sur Load
  • Charger la liste des mots vides
  • Cliquer sur Close, puis sur OK
  • Choisir de nouveau Frequency, Collocate Frequency Data (Ctrl+F) et observer le résultat
  • Effectuer la recherche : logiciel% pirat?%
  • Effectuer la recherche : cyber*
  • Effectuer la recherche : hack*
  • Dans le menu Sort, choisir Search Term, No Second Sort
  • Trouver la requête permettant de sélectionner les emplois nominaux de « hack »

 

F - Étiquetage à l’aide de Winbrill

Jeu d’étiquettes et exemples de textes étiquetés et lemmatisés.

Télécharger le fichier winbrill.zip

 

  • Dans le menu Options, onglet Catégorisation, choisir le jeu de données inalf-lb5 puis Appliquer.
  • Dans l’onglet Données, choisir la liste de jeux inalf-lb5 et cliquer sur OK
  • Choisir « Catégorisation : état initial » et  « Lemmatisation : pas de lemmatisation »
  • Fichier Source : piratage1-5.txt (ne pas oublier l'extension du nom de fichier)
  • Fichier résultat : piratage1-5pdd.txt (pdd = Parties Du Discours)
  • Cliquer sur Lancer

 

  • Ouvrir ensuite le fichier piratage1-5pdd.txt dans Word.
  • Effectuer les deux remplacement suivants :  :pl par pl et :sg par sg
  • Enregistrer le fichier

 

 

G - UTILISATION DU CORPUS ÉtiquetÉ SOUS MONOCONC

  • Recherche des noms qualifiés par l'adjectif "logiciel"    *SBC?? logiciel*
  • Recherche de toutes les formes verbales                            */V* (500)
  • Relèvement du nombre maximal de résultats                      Alt C O - Max Search Hits 500 à 30 000
  • Nombre d'occurrences de chaque résultat                          Alt Q A – Search Term
  • Recherche des collocats de quelques verbes :
    • télécharg*/V* Ctrl+F
    • prot?g*/V* Ctrl+F
    • perm*/V* Ctrl+F

 

Exemples de quelques erreurs d’étiquetage :

identifiant/V*

compte/SBCsg

ferme*/SBC*

 

Élimination des étiquettes à la visualisation : Display Suppress Part-of-speech

 

Analyse des patrons Nom-Adjectif au singulier

*/SBCsg */ADJsg

Alt Q A

 

 

Quels sont les autres noms que « propriété » qui sont qualifiés par l’adjectif intellectuel plus d’une fois dans le corpus ?

*/SBCsg intellectuel*/ADJsg

Alt Q A

 

 

Analyse des patrons Nom-Adjectif au pluriel

*/SBCpl */ADJpl

   

 

Recherche des collocats nominaux de certains adjectifs :

 */SBC?? musica*/ADJ??

 */SBC?? numérique*/ADJ??

Relever les simples cooccurrences, les collocations, les termes spécialisés.

 

 

Recherche des collocations Verbe - Adverbe  :

*/V* *ment/ADV

 

Recherche des Collocats verbaux de l’adverbe illégalement :

illégalement/ADV Ctrl+F

Noter les différences dans la syntaxe des verbes utilisés.

 

H - UTILISATION DES CORPUS DES DOCTORANTS