*Monoconc *

Étude du concordancier Monoconc

NB : Les versions électroniques de nombreux ouvrages sont disponibles dans le cadre du projet Gutenberg (cf. http://www.gutenberg.org/ebooks/).

Démarrer Monopro.exe (Ouvrir le dossier “Monoconc” et cliquer sur l’icone représentant des livres sur une étagère)

1) Charger le fichier LePetitprince_pdd.txt :

File - Load Corpus File(s)

2) Signifier au logiciel qu’il s’agit d’un corpus étiqueté :

Menu : File - Tag Settings - Part of Speech tags

Cliquer à côté de “Embedded in word”

Choisir / comme Caractère de délimitation entre le mot et la partie du discours (Character Delimiter)

Dans le menu File, choisir Collect Tag Information

Le nombre de fichiers et de mots du corpus s’affiche en bas de la fenêtre.

3) Comment faire une requête

Concordance - Search (Ctrl S)

Taper : rire/VNCFF

Le nombre de résultats s’affiche en bas à gauche.

En cliquant sur chaque ligne de concordance, on visualise le contexte.

On peut faire varier la taille de la fenêtre, et améliorer la lecture du contexte grâce au menu Display :

Word Wrap (supprime la barre de défilement horizontal)

Suppress – Part of Speech (Alt D S P, élimine les parties du discourse de l’affichage)

4) Requête utilisant un caractère joker

Ctrl S

Taper : apprivois*

Toutes les formes du verbe apprivoiser s’affichent.

5) Requêtes avancées

Concordance - Advanced Search (Ctrl A)

Choix entre Text Search, Regular Expression et Tag Search.

Syntaxe :

% : n’importe quel caractère ou aucun caractère

* : toute chaîne de caractères, y compris un mot entier

? : n’importe quel caractère

@ : un ou plusieurs mots (la valeur des paramètres peut être modifiée dans le menu Concordance, Search Options, Set Search Parameters)

Requête comprenant une variation portant sur un caractère

sorti?/*

Requête portant sur des mots non conjoints :

sort*/* * * poche/*

On peut utiliser @ pour faire varier le nombre de mots intercalés :

Concordance - Search Options (or Alt C O) : "Set

Search Parameters"

Choisir : @ matches between 0 and 8 words.

dessin*/* @ mouton*/*

Requête faisant intervenir les parties du discours :

dessin*/V*

dessin*/SB*

(certaines formes ont été incorrectement étiquetées).

*/SB* */ADJ*

donne les suites nom-adjectif

*/ADJ* */SB*

donne les suites adjectif-nom

Ctrl A (Advanced Search) en mode “Regular Expression” permet de faire une recherche sur un mot sans tenir compte de l’étiquetage :

prince

6) Fréquence

Corpus Frequency data (Alt Q C F) donne une liste des mots du corpus triés par fréquence descendante.

BATCH FREQUENCY permet de copier cette liste dans un fichier.

Frequency options

Le paramétrage de FREQUENCY OPTIONS (MAXIMUM LINES et MINIMUM

FREQUENCY) permet de définir le contenu et la taille de l’affichage.

Choisir les paramètres suivants :

MINIMUM FREQUENCY = 1

MAXIMUM LINES = 100

Autres paramètres de FREQUENCY OPTIONS :

Ignore case of letters additionne les occurrences du même mot en majuscules et en minuscules

Skip tags additionne les occurrences de deux homonymes ayant des parties du discours distinctes :

mort/*

Les 11 occurrences sont confondues si l’on coche Skip tags, et comptées séparément dans le cas contraires (6 occurrences du nom, 4 du participe passé, 1 de l’adjectif).

7) Recherche de collocations

En choisissant COLLOCATE FREQUENCY DATA dans le menu FREQUENCY (CTRL-F), on affiche les collocatifs du mot de la requête triés par ordre de

fréquence. Les données sont présentées en 4 colonnes, qui représentent les deux mots à gauche et à droite du mot de la requête : 2nd left, 1st left, 1st right, 2nd right.

CTRL S: petit*

CTRL F

La colonne 1-right donne les noms qualifiés par l’adjectif “petit”, et la colonne 2-Left contient quelques formes de passé simple correspondant aux prises de paroles du petit prince.

CTRL S: allumeur*

CTRL F

La colonne 2-right donne le nom le plus souvent employé comme complément du nom « allumeur ».

CTRL S: grandes* personnes*

CTRL F

montre une cooccurrence avec l’adverbe « décidément »

grandes* personnes* @ décidément*

révèle la répétition d’expressions semblables à trois endroits différents du texte.

ADVANCED COLLOCATION (Alt Q A) permet d’extraire des collocations à partir d’une requête.

La première méthode permet au programme de calculer la fréquence des collocations de 2 à 4 mots en fonction des positions de ces mots (3L, 2L, 1L, Search Term, 1R, 2R, 3R) précisées par l’utilisateur.

La seconde méthode (CUSTOMISED COLLOCATION), permet à l’utilisateur de spécifier un plus grand nombre de positions. Par exemple, le choix 3L-3R donne la liste des collocations de 7 mots. Le paramétrage 0, 1R donne une liste de collocations comprenant le mot de la requête et le mot suivant.

Ctrl S : petit*

Alt Q A : Search Term – 1R

CTRL S: grand* personne*

Frequency - Advanced Collocation (Alt Q A)

First word : 1L

First word : 1L Second word: 1R

Frequency - Advanced Collocation (Alt Q A)

Le choix *Customised Collocation* donne une liste de séquences lexicales avec leur pourcentage du total des formes correspondent à la requête.

Choisir : 1L-1R

Tri des résultats

CTRL S: planète*

CTRL F fait ressortir certains schémas (sur la planète, la planète était), mais on peut en répérer d’autres en utilisant le tri primaire et secondaire :

Sort – 1^st right – 2^nd right

Alt D S P (supprime les parties du discours).

Exercice d’application : Effectuez les recherches suivantes :

1) Nombre d’occurrences des mots /petit/ et /prince/ au singulier

2) Nombre d’occurrences de l’expression /coucher de soleil/

3) Trouver la suite de trois mots la plus fréquente du texte se terminant par le nom étoile (au singulier ou au pluriel).

4) Trouver la suite de deux mots la plus fréquente du texte se terminant par une forme de l’adjectif sérieux.

5) Trouver les verbes employés plus d’une fois avec le nom fleur comme complément.

6) Trouver l’adjectif employé plus d’une fois pour qualifier le nom fleur dans des structures attributives.

7) Nombre total de contextes dans lesquels le verbe demander et le nom prince sont séparés par un nombre de mots allant de 2 à 4.

8) Combien dénombre-t-on de formes du verbe posséder ? Quel est son complément le plus fréquent ?

9) Quel est le verbe le plus souvent employé avant l’expression le petit prince ?

10) Si l’on décompte les emplois singuliers et pluriels, quelle est la suite de deux noms la plus employée dans le texte ?

Étude de quelques collocations en anglais de spécialité

Fichier med_tag.txt

*1) **Loading the stop list*

Save the stop list <stop_list.TXT> in the Monoconc folder.

Frequency - Frequency Options

Check Count All Words

Frequency - Corpus Frequency Data - Frequency Order

The list contains a lot of noise.

Frequency - Frequency Options

Changing the max. and min. values to 50 and 30 shows fewer stop words,

but it also misses out on some high frequency items.

Frequency - Frequency Options

Check Content Words only, and click on the Edit Tab

Click on Load, and load the stop list. Close

Choose 10 for Minimum Frequency, 200 for Maximum lines, and click on OK.

Frequency - Batch Frequency Data - Frequency Order

*2) **Searching for collocates*

Ctrl S

evidence_*

Ctrl F for collocates

Change Minimum Frequency to 1, Check Content Words only

Ctrl F gives us the verbs that are used with /evidence/ as their subject

: suggest, support, implicate, indicate (columns 1-Right and 2-right).

Column 1-Left contains all the adjectives that qualify evidence.

Columns 1-Left and 2-Left contain some of the verbs that are used with

/evidence/ as their object (assess, establish, find, produce, provide),

but some of those are also to be found in Column 1-Right (present).

symptom%_* (133)

Columns 1-Left and 2-Left : alleviate, initiate, relieve, reduce,

therapy_* (151)

Ctrl F : Column 1-Left gives a list of commonly used adjectives and noun

modifiers

therapy_NN * *VBN

gives a list of all the verbs that are used in passive structures.

level* (184)

Ctrl F : Column 2-Left gives all the locations for the measurement of

various levels (serum, blood, urinary, liver), and Column 1-Left lists

what was measured (transaminase, gastrin, LH, estradiol, TNF, estrogen

serum_NN * level* gives the environments for the equivalents of "taux

sériques de"

*NN *NN level* followed by Alt Q A gives the most frequently used

expressions, but there are a few tagging errors

*NN *NN *NN%

*JJ *NN *NN%

history_NN

Ctrl F gives little information on verbs (elicit, obtain, confirm)

because of the variety of structures (there are both passive and active

structures).

diagnosis_NN

Ctrl F gives : support, exclude, delay, confirm, make, establish,

exclude, prompt,

Alt Q A gives : minimize, miss, receive, expedite, facilitate

Deuxième partie des exercices d’utilisation de Monoconc

<ltmt-monoconc(2).htm>