Utilisation du concordancier AntConc (version 3.4.4)

 

Télécharger AntConc : http://www.antlab.sci.waseda.ac.jp/antconc_index.html

dans le dossier de Mes Documents qui porte votre nom

Double-cliquer sur AntConc pour le lancer.

 

L’aide en ligne est accessible à l’adresse suivante : http://www.laurenceanthony.net/software/antconc/

 

 

Menu File – Open File – Choisir le fichier piratage1.txt présent dans le dossier Monoconc

 

Menu Global Settings – Character Encoding :
Edit

Pour le français, choisir le premier des encodages ISO :

ISO encodings - Western Europe "Latin1" (iso-8859-1)

Apply

 

Pour un fichier étiqueté, choisir le menu : Global Settings – Tags

 

 

1) Génération d’une liste des mots du texte

 

Onglet: Word List – Bouton Start   

Affiche la liste des mots du texte, ainsi que le nombre de mots distincts (word types) et le nombre d’occurrences ou mots-formes (word tokens).

 

 

2) Prise en compte d’une liste d’exclusion des mots-outils (Stop List)

 

Menu: Tool Preferences – Category: Word List

Other options: cocher “Treat all data as lowercase”

Word List Range Option

Cliquer sur “Use a stoplist below”

Add Words From File – Open – stop_list_fr – Apply

 

Cliquer de nouveau sur Start pour visualiser la liste des mots lexicaux.

 

 

3) Fonctions de base

 

Search Term: intellectuelle

 

Onglet Concordance - Start

Affiche les concordances et le nombre de résultats obtenus (Concordance Hits). En bas du tableau, on peut faire varier le nombre de caractères (par ex. de 50 à 60) affichés de chaque côté du mot recherché (Search Window Size). Le nom du fichier d’origine est affiché dans la deuxième colonne.

 

File ViewStart     En cliquant sur un mot donné, on accède à son contexte ; les occurrences du mot recherché sont accessibles en cliquant sur les flèches à droite du compteur situé en bas de l’écran (Hit location).

 

Clusters/N-Grams – Start       donne les groupes de 2 mots les plus fréquents contenant le mot de la requête.

On peut faire varier la taille des n-grammes (Min. Size & Max. Size) ainsi que leur fréquence minimale (Min. Cluster Frequency) et la position du mot de la requête (Search Term Position).

Le nombre total de n-grammes (Cluster Tokens) et celui de n-grammes distincts (Cluster Types) s’affiche en haut du tableau.

 

Intellectuelle

Min. 2 Max. 4

 

Pour obtenir uniquement les bigrammes dont intellectuelle est le deuxième mot :

Min. 2 Max. 2

Search Term Position: On Right

 

 

Collocates - Start    donne les collocats et leur indice (Stat) de probabilité de cooccurrence.

 

 

Lancer une nouvelle requête avec le mot propriété :

Sort by Stat

Min. Collocate Frequency=5

From 0 To 1-R

 

L’indice par défaut est le MI score. Il peut être modifié dans le menu Tool PreferencesCollocates

Selected Collocate Measure : choisir le T-score

 

 

Clusters/N-Grams

Cluster Size : Max. Size=4, Min. Cluster Frequency=4

logiciel*  

Sort by Word   permet d’isoler toutes les formes commençant par le mot logiciel.s (décocher On Left/On Right dans Search Term Position)

 

Pour obtenir les groupes nominaux dont le complément de nom est le mot logiciel.s :

Cluster Size : Max. Size=3, Min. Cluster Frequency=3

 (Search TermPosition : On Right)

Sort by Freq

logiciel*

 

 

4) Signification des caractères joker (les cellules en rouge indiquent les différences avec le concordancier Monoconc)

 

Global Settings – Wildcards

 

* = zero or more characters

pirat* (Sort 0, 1R, 2R)

+ = zero or one character

logiciel+

? = any one character

p?uv?nt

@ = zero or one word

piratage@logiciel+

# = any one word

télécharg* # de+

| = search term OR search term

piratage|contrefaçon

 

 

5) Exemples de requêtes

 

a) Occurrences de logiciel au singulier ou au pluriel, suivi du mot pirate ou piraté.

 

·       Concordance

·       logiciel+ pirat?+

                     

Pour obtenir le décompte de ces formes (équivalent de Alt-Q-A dans Monoconc) :

 

·       Clusters/N-Grams

·       Cluster size : 2

·       Search Term Position : On Left

 

b) Mots commençant par cyber

 

·       Concordance

·       cyber*

 

·      Clusters/N-Grams

·      Cluster size : 1

·      Min. Cluster Frequency : 1

 

c) Cooccurrences de mots commençant par pirat avec le mot Internet

 

·       Onglet Concordance

·       Advanced

·       Cocher Use Contexts Words and Horizons

·       Search term : pirat*

·       Context Words : Internet

·       Add

·       Context Horizon : From 5L to 5R

·       Apply

·       Start

 

d) Pour afficher et enregistrer une liste des collocats d’un mot donné

 

Dans Advanced, décocher Use search terms from list below et Use Contexts Words and Horizons puis cliquer sur Apply.

 

Recherche des qualificatifs ou compléments des mots piratage et contrefaçon

·       Collocates

·       piratage|contrefaçon

·       1R To 2R

·       Min. Collocate Frequency=5

·       Sort by Stat

 

Menu File - Save Output to Text File

 

Recherche des mots dont l’expression en ligne est le complément.

·       Collocates

·       en ligne

·       1L To 1L

·       Min. Collocate Frequency=3

·       Sort by Freq

 

 

e) Pour générer la liste de mots-clés d’un corpus :

Téléchargement du corpus de référence

(Le Monde 2002 du CJF : http://perso.univ-lyon2.fr/~maniezf/lemonde2002cjf.zip)

Décompactage des fichiers dans le répertoire CJF_LM_2002

 

Menu Tool Preferences - Keyword List

Reference Corpus

Use raw file(s)

Add Directory ou Add Files

Cliquer sur Load (Loaded est coché à la fin du chargement)

Onglet Keyword List – Start

 

 

Exercice d’application

 

1.   Recherche des qualificatifs ou compléments du verbe télécharger ou du nom téléchargement employés au moins trois fois dans le corpus.

2.   Recherche des noms qualifiés par l’adjectif numérique.

3.   Décompte des mots contenant la chaîne de caractères crim.

4.   Recherche des contextes de cooccurrence (cinq mots à droite et à gauche) des mots contrefaçon et Chine.

 

 

 

Exercice portant sur la version étiquetée du corpus (piratage1pdd.txt) :

 

Global Settings

Category :Tags

Check Show Tags

Apply

 

Global Settings

Category :Word definition

In Number Token Classes Check Number

In User-defined Token Class Check Append Following Definition and add the slash (/) in the box below.

Apply

 

 

Obtenir les listes des expressions les plus fréquentes pour les patrons syntaxiques suivants :

 

·       Suites Nom-Adjectif de fréquence supérieure ou égale à 40

Onglet Clusters/N-Grams

Min.=2, Max.=2

Search Term Position : On Left

Min. Freq.=40

*/SBC?? */ADJ??

 

 

·       Suites Nom-Préposition-Nom de fréquence supérieure ou égale à 10

·       Suites Nom-Préposition-Nom de fréquence supérieure ou égale à 3 se terminant par le nom ligne.

·       Suites Nom-Préposition-Nom de fréquence supérieure ou égale à 3 commençant par le nom mise. (repérer d’éventuelles erreurs d’étiquetage en consultant la concordance).

 

 

·       Suites Nom-Préposition-Verbe de fréquence supérieure ou égale à 5

Relever les éventuelles erreurs d’étiquetage

·       Suites Nom-Adjectif Adjectif de fréquence supérieure ou égale à 3

 

·       Suites Verbe à l’infinitif-Préposition-Nom de fréquence supérieure ou égale à 3

·       Suites Verbe à l’infinitif-Déterminant-Nom de fréquence supérieure ou égale à 3

·       Suites Verbe à l’infinitif-Déterminant-Nom de fréquence supérieure ou égale à 3 s terminant par le nom piratage.

·       Suites Verbe à l’infinitif-Déterminant-Nom de fréquence supérieure ou égale à 3 s terminant par le nom loi.