Étude du concordancier Monoconc
NB :
Les versions électroniques de nombreux ouvrages sont disponibles dans le cadre
du projet Gutenberg (cf. http://www.gutenberg.org/ebooks/).
Démarrer
Monopro.exe (Ouvrir le dossier “Monoconc” et cliquer sur l’icone représentant
des livres sur une étagère)
1) Charger le fichier
LePetitprince_pdd.txt :
File - Load Corpus File(s)
2) Signifier au logiciel qu’il
s’agit d’un corpus étiqueté :
Menu :
File - Tag Settings - Part of Speech tags
Cliquer
à côté de “Embedded in word”
Choisir
/ comme Caractère de délimitation entre le mot et la partie du discours
(Character Delimiter)
Dans
le menu File, choisir Collect Tag Information
Le nombre
de fichiers et de mots du corpus s’affiche en bas de la fenêtre.
3) Comment faire une requête
Concordance
- Search (Ctrl S)
Taper
: rire/VNCFF
Le
nombre de résultats s’affiche en bas à gauche.
En
cliquant sur chaque ligne de concordance, on visualise le contexte.
On
peut faire varier la taille de la fenêtre, et améliorer la lecture du contexte
grâce au menu Display :
Word
Wrap (supprime la barre de défilement horizontal)
Suppress
– Part of Speech (Alt D S P, élimine les parties du discourse de l’affichage)
4) Requête utilisant un caractère
joker
Ctrl S
Taper
: apprivois*
Toutes
les formes du verbe apprivoiser
s’affichent.
5) Requêtes avancées
Concordance
- Advanced Search (Ctrl A)
Choix
entre Text Search, Regular Expression et Tag Search.
Syntaxe
:
% :
n’importe quel caractère ou aucun caractère
* :
toute chaîne de caractères, y compris un mot entier
? : n’importe quel caractère
@ : un ou plusieurs mots (la valeur des paramètres peut être
modifiée dans le menu Concordance, Search Options, Set Search Parameters)
Requête
comprenant une variation portant sur un caractère
sorti?/*
Requête
portant sur des mots non conjoints :
sort*/* * * poche/*
On
peut utiliser @ pour faire varier le nombre de mots intercalés :
Concordance - Search Options (or Alt C O) : "Set
Search Parameters"
Choisir :
@ matches between 0 and 8 words.
dessin*/* @ mouton*/*
Requête
faisant intervenir les parties du discours :
dessin*/V*
dessin*/SB*
(certaines formes ont été incorrectement étiquetées).
*/SB*
*/ADJ*
donne les suites nom-adjectif
*/ADJ*
*/SB*
donne les suites adjectif-nom
Ctrl A
(Advanced Search) en mode “Regular Expression” permet de faire une recherche
sur un mot sans tenir compte de l’étiquetage :
prince
6) Fréquence
Corpus
Frequency data (Alt Q C F) donne une liste des mots du corpus triés par
fréquence descendante.
BATCH
FREQUENCY permet de copier cette liste dans un fichier.
Frequency options
Le
paramétrage de FREQUENCY OPTIONS
(MAXIMUM LINES et MINIMUM
FREQUENCY)
permet de définir le contenu et la taille de l’affichage.
Choisir
les paramètres suivants :
MINIMUM
FREQUENCY = 1
MAXIMUM
LINES = 100
Autres
paramètres de FREQUENCY OPTIONS :
Ignore case of letters additionne les occurrences du
même mot en majuscules et en minuscules
Skip tags additionne les occurrences de
deux homonymes ayant des parties du discours distinctes :
mort/*
Les 11
occurrences sont confondues si l’on coche Skip
tags, et comptées séparément dans le cas contraires (6 occurrences du nom,
4 du participe passé, 1 de l’adjectif).
7)
Recherche de collocations
En
choisissant COLLOCATE FREQUENCY DATA dans le menu FREQUENCY (CTRL-F), on
affiche les collocatifs du mot de la requête triés par ordre de
fréquence. Les données sont présentées en 4 colonnes, qui
représentent les deux mots à gauche et à droite du mot de la requête : 2nd
left, 1st left, 1st right, 2nd right.
CTRL
S: petit*
CTRL F
La
colonne 1-right donne les noms qualifiés par l’adjectif “petit”, et la colonne
2-Left contient quelques formes de passé simple correspondant aux prises de
paroles du petit prince.
CTRL
S: allumeur*
CTRL F
La
colonne 2-right donne le nom le plus souvent employé comme complément du nom
« allumeur ».
CTRL
S: grandes* personnes*
CTRL F
montre une cooccurrence avec l’adverbe
« décidément »
grandes* personnes* @ décidément*
révèle la répétition d’expressions
semblables à trois endroits différents du texte.
ADVANCED
COLLOCATION (Alt Q A) permet d’extraire des collocations à partir d’une
requête.
La
première méthode permet au programme de calculer la fréquence des collocations
de 2 à 4 mots en fonction des positions de ces mots (3L, 2L, 1L, Search Term,
1R, 2R, 3R) précisées par l’utilisateur.
La seconde méthode (CUSTOMISED COLLOCATION), permet
à l’utilisateur de spécifier un plus grand nombre de positions. Par exemple, le
choix 3L-3R donne la liste des
collocations de 7 mots. Le paramétrage 0, 1R donne une liste de collocations
comprenant le mot de la requête et le mot suivant.
Ctrl S : petit*
Alt Q A : Search
Term – 1R
CTRL S: grand* personne*
Frequency - Advanced Collocation (Alt Q A)
First word : 1L
First word : 1L
Second word: 1R
Frequency - Advanced Collocation (Alt Q A)
Le
choix *Customised Collocation* donne une liste de séquences lexicales avec leur
pourcentage du total des formes correspondent à la requête.
Choisir
: 1L-1R
Tri
des résultats
CTRL
S: planète*
CTRL F
fait ressortir certains schémas (sur la planète, la planète était), mais on
peut en répérer d’autres en utilisant le tri primaire et secondaire :
Sort –
1st right – 2nd right
Alt D
S P (supprime les parties du discours).
Exercice d’application : Effectuez
les recherches suivantes :
1)
Nombre d’occurrences des mots /petit/ et /prince/ au singulier
2)
Nombre d’occurrences de l’expression /coucher de soleil/
3)
Trouver la suite de trois mots la plus fréquente du texte se terminant par le
nom étoile (au singulier ou au pluriel).
4)
Trouver la suite de deux mots la plus fréquente du texte se terminant par une
forme de l’adjectif sérieux.
5)
Trouver les verbes employés plus d’une fois avec le nom fleur comme
complément.
6)
Trouver l’adjectif employé plus d’une fois pour qualifier le nom fleur
dans des structures attributives.
7)
Nombre total de contextes dans lesquels le verbe demander et le nom prince
sont séparés par un nombre de mots allant de 2 à 4.
8)
Combien dénombre-t-on de formes du verbe posséder ? Quel est son
complément le plus fréquent ?
9)
Quel est le verbe le plus souvent employé avant l’expression le petit prince ?
10) Si
l’on décompte les emplois singuliers et pluriels, quelle est la suite de deux
noms la plus employée dans le texte ?
Étude
de quelques collocations en anglais de spécialité
Fichier med_tag.txt
*1) **Loading
the stop list*
Save the stop list <stop_list.TXT> in
the Monoconc folder.
Frequency - Frequency Options
Check Count All Words
Frequency - Corpus Frequency Data - Frequency
Order
The list contains a lot of noise.
Frequency - Frequency Options
Changing the max.
and min. values to 50 and 30 shows fewer stop words,
but it also
misses out on some high frequency items.
Frequency - Frequency Options
Check Content Words only, and click on the
Edit Tab
Click on Load, and load the stop list. Close
Choose 10 for Minimum Frequency, 200 for
Maximum lines, and click on OK.
Frequency - Batch Frequency Data - Frequency
Order
*2)
**Searching for collocates*
Ctrl S
evidence_*
Ctrl F for collocates
Change Minimum Frequency to 1, Check Content
Words only
Ctrl F gives us the verbs that are used with
/evidence/ as their subject
: suggest, support, implicate, indicate (columns 1-Right and 2-right).
Column 1-Left contains all the adjectives that
qualify evidence.
Columns 1-Left and 2-Left contain some of the
verbs that are used with
/evidence/ as their object (assess,
establish, find, produce, provide),
but some of
those are also to be found in Column 1-Right (present).
symptom%_*
(133)
Columns 1-Left and 2-Left : alleviate, initiate, relieve,
reduce,
therapy_* (151)
Ctrl F : Column
1-Left gives a list of commonly used adjectives and noun
modifiers
therapy_NN * *VBN
gives
a list of all the verbs that are used in passive structures.
level*
(184)
Ctrl F : Column
2-Left gives all the locations for the measurement of
various
levels (serum, blood, urinary, liver), and Column 1-Left lists
what
was measured (transaminase, gastrin, LH, estradiol, TNF, estrogen
serum_NN * level* gives the environments for
the equivalents of "taux
sériques
de"
*NN *NN level* followed by Alt Q A gives the
most frequently used
expressions,
but there are a few tagging errors
*NN
*NN *NN%
*JJ
*NN *NN%
history_NN
Ctrl F gives little information on verbs (elicit,
obtain, confirm)
because
of the variety of structures (there are both passive and active
structures).
diagnosis_NN
Ctrl F gives :
support, exclude, delay, confirm, make, establish,
exclude,
prompt,
Alt Q A gives : minimize,
miss, receive, expedite, facilitate
Deuxième
partie des exercices d’utilisation de Monoconc
<ltmt-monoconc(2).htm>