Utilisation du Corpus
of Contemporary American English
https://www.english-corpora.org/
https://www.english-corpora.org/coca/
1. Recherche d’un mot ou d’une
expression
dissertation
LIST |
Fréquence
des mots et expressions correspondant à la requête |
CHART |
Tableau
de leur répartition dans les huit parties du corpus et dans les lustres
successifs du corpus |
WORD |
·
Répartition
des occurrences dans les huit parties du corpus, ·
Fonction
thésaurus, ·
Collocats répartis en PDD, ·
Synonymes, ·
N-grammes
les plus fréquents ·
Corpus
virtuels (sites contenant le mot de la requête) ·
Affichage
KWIC (concordance faisant apparaître les parties du discours en couleurs ;
l’ordre alphabétique par défaut est celui des collocats
situés à droite :1R, 2R, 3R). |
BROWSE |
La
case meaning
peut donner lieu à divers choix en fonction des cases cochées : ·
Definition : renvoie des items
appartenant au même champ lexical (dont la définition contient le mot de la
requête). ·
Synonym : quasi-synonymes ou co-hyponymes ·
Specific : hyponymes ·
General : hyperonymes |
Trade
WORD
Scroll
down to the concordance
MORE
agreement(s),
association, barriers,
World
Trade Center (attack, bombing, site)
Federal
Trade Commission
World
Trade Organization
Sort
on LEFT
North
American Free Trade Agreement
Permet de regrouper les collocats de gauche et de repérer ceux qui appartiennent à
certaines catégories grammaticales (adjectifs en vert : domestic, global,
international…)
2. Comparaison de mots ou
d’expressions
Cick
on +
COMPARE
a)
dissertation vs thesis
Le tri par défaut est par ratio
descendant, c’est-à-dire le rapport entre le nombre de cooccurrences du mot de
la liste avec W1 (dissertation) et W2
(thesis).
W1 et W2 représentent donc les
deux mots comparés.
Le vert foncé indique les collocats employés préférentiellement avec l’un des mots
concernés.
SORTED BY RATIO: CHANGE TO FREQUENCY
Les collocats
sont triés par ordre de fréquence, ce qui privilégie les mots outils. Les
diverses nuances de vert restent visibles pour indiquer la probabilité de
cooccurrence.
On peut spécifier une partie du
discours pour les collocats :
ADJ Collocates
[POS]
doctoral dissertation est 3 fois plus employé que doctoral thesis, d’où
la valeur du score (6,9).
La fenêtre par défaut est de 4
mots à gauche et à droite. Cette valeur peut être modifiée :
COLLOCATES 1 0
Cette valeur renvoie les prémodificateurs du terme de la requête.
Le score de Doctoral est de 0,1 dans la colonne des prémodificateurs
de thesis.
b)
committee vs commission
Pour la recherche des collocats, on peut formuler une restriction lexicale :
COLLOCATES *al 1 0
Les adjectifs des zones blanches
sont ceux pour lesquels la variation est libre : constitutional, environmental, international, judicial, memorial, special.
On peut aussi formuler une
restriction concernant la partie du discours (POS ou abréviation). Par exemple,
pour les adjectifs on peut donc employer [jj] ou
ADJ :
COLLOCATES 1 0
adj.ALL
3. Variations diachroniques et diastratiques
facebook
Les usages antérieurs à 2005
concernent le nom commun.
twitter
Les usages antérieurs à 2005
concernent le verbe ou le nom commun qui en est dérivé.
Uber
Les usages antérieurs à 2010
concernent le prémodificateur.
hypothesiz*
Le verbe hypothesize est majoritairement
utilisé dans le contexte de la recherche universitaire.
4. Comparaison de quelques
synonymes dans le sous-ensemble ACADEMIC
COMPARE
0 1
efficient vs
effective
fast vs rapid
Recherche d’ET pour la
collocation “supposer incorrectement”
Requête faisant apparaître les
collocations de type <adverbe-verbe>
assumed vs supposed
COMPARE
assume
suppose
adv.ALL
1 1
5. Comparaison de structures
syntaxiques
Etude de l’effacement de la
conjonction THAT introduisant une proposition complétive.
On cherche à comparer cet
effacement dans deux types de sous-corpus : celui de la langue écrite
universitaire (ACADEMIC) et celui de la langue orale (SPOKEN).
On compare les structures dans
lesquelles les verbes claim, know et contend sont suivis de la
séquence THAT – PRONOM – VERBE et les structures de même type dans lesquelles
THAT est effacé.
La requête [claim].[v*] donnera toutes les formes
verbales de claim (les crochets servent à la fois à la lemmatisation et à la
limitation à une partie du discours quand ils sont reliés par un point).
OPTIONS
HITS : 10000
5.1 CLAIM (THAT) pronoun verb
ACADEMIC |
|
[claim].[v*] that [p*] [v*] |
724 |
[claim].[v*] [p*] [v*] |
495 |
|
|
SPOKEN |
|
[claim].[v*] that [p*] [v*] |
877 |
[claim].[v*] [p*] [v*] |
2029 |
5.2.
KNOW THAT THE noun verb
On utilise une structure de
moindre fréquence pour obtenir un affichage plus rapide des résultats.
ACADEMIC |
|
[know] that the [n*] [v*] |
357 |
[know] the [n*] [v*] |
324 |
|
|
SPOKEN |
|
[know] that the [n*] [v*] |
1013 |
[know] the [n*] [v*] |
1665 |
5.3.
CONTEND THAT THE noun
(structure
identique, mais sans le verbe final)
ACADEMIC |
|
[contend] that the [n*] |
365 |
[contend] the [n*] |
21 |
|
|
SPOKEN |
|
[contend] that the [n*] |
24 |
[contend] the [n*] |
39 |
Click here for a list
of these part of speech tags.
You can also use part of speech tags is by selecting
them from the drop-down list (click on [POS LIST] to show it).
|
Syntax |
Meaning |
Examples (Click to run) |
Sample matches |
[pos] |
Part of speech (exact) |
going, using |
|
[lemma] |
Lemmas (all forms of a word) |
sing, singing, sang |
|
[=word] |
Synonyms |
low, tired, soft, vulnerable, etc. |
|
word|word |
Any of these
words |
stunning, charming,
gorgeous |
|
*xx |
Wildcard: * = any # letters |
unlikely, unusually |
|
-word |
NOT (followed by PoS,
lemma, word, etc. Most useful for "multiple slot" queries; see
below) |
the,
in, is |
|
Combinations of preceding
(samples) |
|||
You can limit to a particular part of speech by
adding a period (full stop) and then the part of speech tag in brackets. |
|||
word.[pos] |
Exact word and part of speech |
strike (only as a verb) |
|
word*.[pos] |
Substring and part of speech |
discovered, disappeared,
discussed |
|
[lemma].[pos] |
Lemma and part of speech |
strike, struck,
striking |
|
[word].[pos] |
Synonym and part of speech |
hit, strike, defeat |
|
You can add "lemma" to any other type of
search, such as synonym or customized list, to see all forms of the matching
words. Just use an extra set of brackets. |
|||
[[=word]] |
Synonym and lemma |
announced, circulating, publishes, issue |
|
You can also choose lemma and part of speech by
combining the preceding symbols |
|||
[[=word]].[pos] |
Synonym and lemma and part of speech |
mop, scrubs, polishing |
|
Multiple "slots" : Create sequences of words, using any of the preceding query types.
Note that in each case, there is a space between the word "slots"
in the query. These are just a few examples, from an unlimited number of
combinations. Note on advanced queries involving variable length between words. |
|||
nooks and crannies |
|||
fast food |
|||
pretty smart |
|||
get her to stay |
|||
.|,|;
nevertheless [p*] [v*] |
. Nevertheless it is |
||
break the law |
|||
beat the Yankees |
|||
beautiful woman |