Utilisation du concordancier
AntConc (version 3.4.4)
Télécharger AntConc :
http://www.antlab.sci.waseda.ac.jp/antconc_index.html
dans le dossier de Mes Documents qui porte votre nom
Double-cliquer sur AntConc
pour le lancer.
L’aide en ligne est accessible à
l’adresse suivante : http://www.laurenceanthony.net/software/antconc/
Menu File – Open File – Choisir le
fichier piratage1.txt présent dans le dossier Monoconc
Menu Global Settings
– Character Encoding :
Edit
Pour le français, choisir le premier des
encodages ISO :
ISO encodings - Western
Europe "Latin1" (iso-8859-1)
Apply
Pour un fichier étiqueté, choisir le
menu : Global Settings – Tags
1) Génération d’une liste des mots du texte
Onglet: Word List –
Bouton Start
Affiche la liste des mots du texte, ainsi que le
nombre de mots distincts (word types) et le nombre
d’occurrences ou mots-formes (word tokens).
2) Prise en compte d’une liste d’exclusion des mots-outils
(Stop List)
Menu: Tool Preferences
– Category: Word List
Other options: cocher “Treat all data as lowercase”
Word List Range Option
Cliquer sur “Use a stoplist below”
Add Words From File
– Open – stop_list_fr – Apply
Cliquer de nouveau sur Start pour visualiser la
liste des mots lexicaux.
3) Fonctions de base
Search Term:
intellectuelle
Onglet Concordance - Start
Affiche les
concordances et le nombre de résultats obtenus (Concordance Hits). En
bas du tableau, on peut faire varier le nombre de caractères (par ex. de
50 à 60) affichés de chaque côté du mot
recherché (Search Window
Size). Le nom du fichier d’origine est affiché dans la
deuxième colonne.
File View
– Start En cliquant sur un mot donné, on accède à son
contexte ; les occurrences du mot recherché sont accessibles en
cliquant sur les flèches à droite du compteur situé en bas
de l’écran (Hit location).
Clusters/N-Grams – Start donne les groupes de 2 mots les plus fréquents contenant le mot
de la requête.
On peut faire varier la taille des n-grammes (Min.
Size & Max. Size) ainsi que leur fréquence minimale (Min. Cluster Frequency) et la position du mot de la requête (Search Term Position).
Le nombre total de n-grammes (Cluster Tokens) et celui de n-grammes distincts (Cluster Types)
s’affiche en haut du tableau.
Intellectuelle
Min. 2 Max. 4
Pour obtenir uniquement les bigrammes dont intellectuelle est le deuxième
mot :
Min. 2 Max. 2
Search Term Position: On
Right
Collocates - Start donne les collocats et leur indice (Stat) de
probabilité de cooccurrence.
Lancer une nouvelle requête avec le mot propriété :
Sort by Stat
Min. Collocate Frequency=5
From 0 To
1-R
L’indice par défaut est le MI score.
Il peut être modifié dans le menu Tool Preferences – Collocates
Selected Collocate Measure :
choisir le T-score
Clusters/N-Grams
Cluster Size : Max.
Size=4, Min. Cluster Frequency=4
logiciel*
Sort by Word permet
d’isoler toutes les formes commençant par le mot logiciel.s
(décocher On Left/On Right dans Search Term Position)
Pour obtenir les groupes nominaux dont le
complément de nom est le mot logiciel.s :
Cluster Size : Max. Size=3, Min. Cluster
Frequency=3
(Search TermPosition :
On Right)
Sort by Freq
logiciel*
4) Signification des caractères joker (les cellules en rouge
indiquent les différences avec le concordancier Monoconc)
Global Settings –
Wildcards
* = zero or more
characters |
pirat* (Sort 0, 1R, 2R) |
+ = zero or
one character |
logiciel+ |
? = any one character |
p?uv?nt |
@ = zero or
one word |
piratage@logiciel+ |
# = any one
word |
télécharg*
# de+ |
| = search term OR
search term |
piratage|contrefaçon |
5) Exemples de requêtes
a) Occurrences de logiciel au
singulier ou au pluriel, suivi du mot pirate
ou piraté.
·
Concordance
·
logiciel+ pirat?+
Pour obtenir le décompte de ces formes
(équivalent de Alt-Q-A dans Monoconc) :
· Clusters/N-Grams
· Cluster size : 2
· Search Term
Position : On Left
b) Mots commençant par cyber
·
Concordance
·
cyber*
·
Clusters/N-Grams
·
Cluster size : 1
·
Min. Cluster Frequency : 1
c) Cooccurrences de mots commençant par pirat avec le mot Internet
·
Onglet Concordance
·
Advanced
· Cocher Use Contexts Words and Horizons
· Search term : pirat*
· Context Words : Internet
· Add
· Context Horizon : From 5L
to 5R
· Apply
· Start
d) Pour afficher et enregistrer une liste des collocats
d’un mot donné
Dans Advanced, décocher Use search terms from list
below et Use Contexts Words and Horizons puis cliquer sur Apply.
Recherche des qualificatifs ou compléments
des mots piratage et contrefaçon
· Collocates
· piratage|contrefaçon
· 1R To 2R
· Min. Collocate Frequency=5
· Sort by Stat
Menu File - Save Output to
Text File
Recherche des mots dont l’expression en ligne est le complément.
· Collocates
· en ligne
· 1L To 1L
· Min. Collocate Frequency=3
· Sort by Freq
e) Pour générer la liste de mots-clés d’un
corpus :
Téléchargement du corpus de
référence
(Le Monde 2002 du CJF : http://perso.univ-lyon2.fr/~maniezf/lemonde2002cjf.zip)
Décompactage des fichiers dans le
répertoire CJF_LM_2002
Menu Tool Preferences -
Keyword List
Reference Corpus
Use raw file(s)
Add Directory ou Add Files
Cliquer sur Load (Loaded est coché à la fin du chargement)
Onglet Keyword List – Start
Exercice d’application
1. Recherche des qualificatifs ou compléments du verbe télécharger ou du nom téléchargement
employés au moins trois fois dans le corpus.
2. Recherche des noms qualifiés par l’adjectif numérique.
3. Décompte des mots contenant la chaîne de caractères
crim.
4. Recherche des contextes de cooccurrence (cinq mots à droite et
à gauche) des mots contrefaçon
et Chine.
Exercice portant sur la version étiquetée du corpus (piratage1pdd.txt) :
Global Settings
Category :Tags
Check Show
Tags
Apply
Global Settings
Category :Word definition
In Number
Token Classes Check Number
In User-defined
Token Class Check Append Following
Definition and add the slash (/) in the box below.
Apply
Obtenir les listes des expressions les plus
fréquentes pour les patrons syntaxiques suivants :
· Suites Nom-Adjectif de fréquence
supérieure ou égale à 40
Onglet Clusters/N-Grams
Min.=2, Max.=2
Search Term Position : On Left
Min. Freq.=40
*/SBC?? */ADJ??
· Suites Nom-Préposition-Nom
de fréquence supérieure ou égale à 10
· Suites Nom-Préposition-Nom
de fréquence supérieure ou égale à 3 se terminant
par le nom ligne.
· Suites Nom-Préposition-Nom
de fréquence supérieure ou égale à 3 commençant
par le nom mise. (repérer
d’éventuelles erreurs d’étiquetage en consultant la
concordance).
· Suites Nom-Préposition-Verbe
de fréquence supérieure ou égale à 5
Relever les éventuelles
erreurs d’étiquetage
· Suites Nom-Adjectif Adjectif de fréquence
supérieure ou égale à 3
· Suites Verbe à l’infinitif-Préposition-Nom
de fréquence supérieure ou égale à 3
· Suites Verbe à l’infinitif-Déterminant-Nom
de fréquence supérieure ou égale à 3
· Suites Verbe à l’infinitif-Déterminant-Nom
de fréquence supérieure ou égale à 3 s terminant
par le nom piratage.
· Suites Verbe à l’infinitif-Déterminant-Nom
de fréquence supérieure ou égale à 3 s terminant
par le nom loi.