Création
et utilisation d’un corpus monolingue
A - CRÉATION DU
CORPUS
·
Se
connecter au site de l’Université Lyon 2
·
Cliquer
sur BIBLIOTHEQUES, puis Collections
·
Cliquer
sur Bibliothèque électronique
·
Choisir
la base de données Factiva (lettres EF ou ACCES
DIRECT)
·
Activez
les options et choisir pour la période « Au cours du dernier mois »
·
Choisir
les mots clés piratage et logiciel
·
Lancer
la recherche (Rechercher)
·
Sélectionner les titres 1 à 100 et les télécharger
(format de téléchargement : RTF,
format article complet)
·
Ouvrir le fichier avec Word, et l’enregistrer au
format texte sous le nom piratage_logiciel_1.txt
Optionnel
(en cas d’utilisation des seuls 100 premiers articles, passer
directement à l’étape B.2) :
·
Désélectionner les titres 1 à 100, cliquer sur les
100 suivants et sélectionner les titres 101 à 200
·
Répéter l’opération jusqu’à l’enregistrement de la
totalité des résultats au format texte.
B - PRETRAITEMENT
DU CORPUS
(passage au format TXT)
1)
·
Ouvrir
un nouveau document dans Microsoft Word
·
Y
insérer l’ensemble des fichiers enregistrés précédemment (NB : on peut
choisir de compiler le corpus sous la forme de fichiers séparés).
·
Enregistrer
votre document sous le nom piratage, au format Texte Brut (Codage Windows).
2)
·
Remplacer
toutes les occurrences de l'apostrophe par apostrophe+espace
(en l’absence de cette précaution, des suites de caractères telles que arrêter, d’arrêter, l’arrêter m’arrêter, s’arrêter, ou t’arrêter seront
comptabilisées par un concordancier comme autant de mots distincts)
·
Enregistrer
votre document et quitter Word
·
Exemple
de corpus constitué à partir des mots-clés piratage
et logiciel : piratage-1.txt
C - UTILISATION DU
CORPUS SOUS MONOCONC
- Télécharger
le
concordancier (http://perso.univ-lyon2.fr/~maniezf/c.zip)
et décompacter l’archive dans un dossier nommé Monoconc
- Lancer
l’auto-exécutable Monopro.exe)
- Charger
votre corpus (File – Load Corpus files);
la taille totale du corpus en mots s'affiche dans la barre d'état.
- Chercher les
occurrences de vos mots-clés (Concordance - Search,
ou Ctrl+S)
- Rechercher
l'ensemble des formes du nom logiciel (singulier et pluriel) en utilisant
la syntaxe : logiciel%
- Rechercher
l'ensemble des formes du mot logiciel (nom et adjectif) en utilisant la
syntaxe : logiciel*
- Dans le menu Frequency, choisir Frequency
Options, puis sélectionner "Count all words"
dans la partie de la fenêtre intitulée "Stop List Options"
- Dans
le menu Frequency, choisir Collocate
Frequency Data (Ctrl+F)
- Le
tableau fournit la liste des mots les plus employés dans l'environnement
du mot recherché, classés par fréquence descendante
- Télécharger
la liste des mots vides
- Dans
le menu Frequency, choisir Frequency
Options, puis sélectionner "Content words only" dans la partie de la fenêtre intitulée
"Stop List Options"
- Cliquer
sur Edit
- Cliquer
sur Load
- Charger
la liste des mots vides
- Cliquer
sur Close, puis sur OK
- Choisir
de nouveau Frequency, Collocate
Frequency Data (Ctrl+F)
et observer le résultat
- Effectuer
la recherche : logiciel% pirat?%
- Effectuer
la recherche : cyber*
- Effectuer la
recherche : hack*
- Dans
le menu Sort, choisir Search Term,
No Second Sort
- Trouver
la requête permettant de sélectionner les emplois nominaux de
« hack »
D - Pré-traitement préalable à l’étiquetage du
corpus
- ouverture
de Word (Fichier Nouveau ) et insertion du
fichier piratage.txt
- enregistrement
au format Texte brut sous le nom de piratage1.txt
- séparation
des signes de ponctuations :
- point
paragraphe à espace point
paragraphe
- point
espace à espace point espace
- apostrophe à apostrophe
espace
- virgule à espace virgule
- deux
points à espace deux points
- point-virgule
à espace point-virgule
- point
d’interrogation à espace point
d’interrogation
- point
d’exclamation à espace point
d’exclamation
- parenthèse
ouvrante à parenthèse ouvrante espace
- parenthèse
fermante à espace parenthèse fermante
- guillemet
à espace guillemet espace
- double
espace guillemet à espace guillemet
- guillemet
double espace à guillemet espace
- enregistrement
du fichier
On peut également
utiliser l’utilitaire ReplaceText et y importer un tableau de remplacement effectuant ces
opérations (menu File Import Search/Replace Table).