Utilisation du Corpus of Contemporary American English

 

https://www.english-corpora.org/

 

https://www.english-corpora.org/coca/

 

1. Recherche d’un mot ou d’une expression

 

dissertation

 

LIST

Fréquence des mots et expressions correspondant à la requête

CHART

Tableau de leur répartition dans les huit parties du corpus et dans les lustres successifs du corpus

WORD

·       Répartition des occurrences dans les huit parties du corpus,

·        Fonction thésaurus,

·        Collocats répartis en PDD,

·        Synonymes,

·        N-grammes les plus fréquents

·        Corpus virtuels (sites contenant le mot de la requête)

·       Affichage KWIC (concordance faisant apparaître les parties du discours en couleurs ; l’ordre alphabétique par défaut est celui des collocats situés à droite :1R, 2R, 3R).

BROWSE

La case meaning peut donner lieu à divers choix en fonction des cases cochées :

·        Definition : renvoie des items appartenant au même champ lexical (dont la définition contient le mot de la requête).

·        Synonym : quasi-synonymes ou co-hyponymes

·        Specific : hyponymes

·       General : hyperonymes

 

Trade

WORD

Scroll down to the concordance

MORE 

 

agreement(s), association, barriers, 

World Trade Center (attack, bombing, site)

Federal Trade Commission

World Trade Organization

Sort on LEFT

North American Free Trade Agreement

Permet de regrouper les collocats de gauche et de repérer ceux qui appartiennent à certaines catégories grammaticales (adjectifs en vert : domestic, global, international…)

 

 

2. Comparaison de mots ou d’expressions

 Cick on +

COMPARE

 

a) dissertation vs thesis

Le tri par défaut est par ratio descendant, c’est-à-dire le rapport entre le nombre de cooccurrences du mot de la liste avec W1 (dissertation) et W2 (thesis).

W1 et W2 représentent donc les deux mots comparés.

Le vert foncé indique les collocats employés préférentiellement avec l’un des mots concernés.

 

SORTED BY RATIO: CHANGE TO FREQUENCY

 

Les collocats sont triés par ordre de fréquence, ce qui privilégie les mots outils. Les diverses nuances de vert restent visibles pour indiquer la probabilité de cooccurrence.

 

On peut spécifier une partie du discours pour les collocats :

 

ADJ               Collocates  [POS]

 

doctoral dissertation est 3 fois plus employé que doctoral thesis, d’où la valeur du score (6,9).

 

La fenêtre par défaut est de 4 mots à gauche et à droite. Cette valeur peut être modifiée :

 

COLLOCATES           1        0

 

Cette valeur renvoie les prémodificateurs du terme de la requête.

 

Le score de Doctoral est de 0,1 dans la colonne des prémodificateurs de thesis.

 

 

b) committee vs commission

 

Pour la recherche des collocats, on peut formuler une restriction lexicale :

 

COLLOCATES           *al      1         0

 

Les adjectifs des zones blanches sont ceux pour lesquels la variation est libre : constitutional, environmental, international, judicial, memorial, special.

 

 

On peut aussi formuler une restriction concernant la partie du discours (POS ou abréviation). Par exemple, pour les adjectifs on peut donc employer [jj] ou ADJ :

 

COLLOCATES           1        0                   adj.ALL

 

 

3. Variations diachroniques et diastratiques

 

facebook

 

Les usages antérieurs à 2005 concernent le nom commun.

 

twitter

 

Les usages antérieurs à 2005 concernent le verbe ou le nom commun qui en est dérivé.

 

Uber

 

Les usages antérieurs à 2010 concernent le prémodificateur.

 

hypothesiz*

 

Le verbe hypothesize est majoritairement utilisé dans le contexte de la recherche universitaire.

 

 

4. Comparaison de quelques synonymes dans le sous-ensemble ACADEMIC

 

 

COMPARE

0         1

 

efficient vs effective

 

fast vs rapid

 

Recherche d’ET pour la collocation “supposer incorrectement”

 

Requête faisant apparaître les collocations de type <adverbe-verbe>

assumed vs supposed

 

COMPARE

assume

suppose

adv.ALL

1         1

 

5. Comparaison de structures syntaxiques

 

Etude de l’effacement de la conjonction THAT introduisant une proposition complétive.

 

On cherche à comparer cet effacement dans deux types de sous-corpus : celui de la langue écrite universitaire (ACADEMIC) et celui de la langue orale (SPOKEN).

 

On compare les structures dans lesquelles les verbes claim, know et contend sont suivis de la séquence THAT – PRONOM – VERBE et les structures de même type dans lesquelles THAT est effacé.

 

La requête [claim].[v*] donnera toutes les formes verbales de claim (les crochets servent à la fois à la lemmatisation et à la limitation à une partie du discours quand ils sont reliés par un point).

 

OPTIONS

HITS : 10000

 

 

5.1 CLAIM (THAT) pronoun verb

 

ACADEMIC

 

[claim].[v*] that [p*] [v*]

724

[claim].[v*] [p*] [v*]

495

 

SPOKEN

 

[claim].[v*] that [p*] [v*]

877

[claim].[v*] [p*] [v*]

2029

 

 

5.2. KNOW THAT THE noun verb

 

On utilise une structure de moindre fréquence pour obtenir un affichage plus rapide des résultats.

 

ACADEMIC

 

[know] that the [n*] [v*]

357

[know] the [n*] [v*]

324

 

SPOKEN

 

[know] that the [n*] [v*]

1013

[know] the [n*] [v*]

1665

 

 

5.3. CONTEND THAT THE noun

 

(structure identique, mais sans le verbe final)

 

ACADEMIC

 

[contend] that the [n*]

365

[contend] the [n*]

21

 

SPOKEN

 

[contend] that the [n*]

24

[contend] the [n*]

39

 

 

                               Click here for a list of these part of speech tags.

 

List of part of speech tags

You can also use part of speech tags is by selecting them from the drop-down list (click on [POS LIST] to show it).

 

 

 

Syntax

Meaning

Examples (Click to run)

Sample matches

[pos]
[pos*]

Part of speech (exact)
Part of speech (wildcard)

[vvg]
[v*]
 

going, using
find, does, keeping, started

 

[lemma]

Lemmas (all forms of a word)

[sing]
[tall]

sing, singing, sang
tall, taller, tallest

[=word]

Synonyms
[=weak]
 

low, tired, soft, vulnerable, etc.

 

 

word|word

Any of these words

stunning|gorgeous|charming

stunning, charming, gorgeous

*xx
x?xx
x?xx*

Wildcard: * = any # letters
Wildcard: ? = one letter

un*ly
s?ng
s?ng*

unlikely, unusually
sing, sang, song
song, singer, songbirds

-word

NOT (followed by PoS, lemma, word, etc. Most useful for "multiple slot" queries; see below)

-[nn*]

the, in, is

Combinations of preceding (samples)

You can limit to a particular part of speech by adding a period (full stop) and then the part of speech tag in brackets.

word.[pos]

Exact word and part of speech

strike.[v*]

strike (only as a verb)

word*.[pos]

Substring and part of speech

dis*.[vvd]

discovered, disappeared, discussed

[lemma].[pos]

Lemma and part of speech

[strike].[v*]

strike, struck, striking

[word].[pos]

Synonym and part of speech

[=beat].[v*]

hit, strike, defeat
(but not nouns, like rhythm or drumming)

You can add "lemma" to any other type of search, such as synonym or customized list, to see all forms of the matching words. Just use an extra set of brackets.

[[=word]]

Synonym and lemma

[[=publish]]

announced, circulating, publishes, issue
(no part of speech specified, so some noun uses)

You can also choose lemma and part of speech by combining the preceding symbols

[[=word]].[pos]

Synonym and lemma and part of speech

[[=clean]].[v*]

mop, scrubs, polishing

Multiple "slots" : Create sequences of words, using any of the preceding query types. Note that in each case, there is a space between the word "slots" in the query. These are just a few examples, from an unlimited number of combinations. Note on advanced queries involving variable length between words.

nooks and crannies

nooks and crannies

fast|quick|rapid [nn*]

fast food
rapid transit

pretty -[nn*]

pretty smart
pretty as
(but not pretty girl, pretty picture, etc)

[get] her to [v*]

get her to stay
got her to sleep

.|,|;  nevertheless [p*] [v*]
(Notice that punctuation can be used like any "word";
just make sure that it is separated from words by a space)

. Nevertheless it is
; nevertheless he said

[break] the [nn*]

break the law
broke the story

[[beat]].[v*] * [nn*]

beat the Yankees
beaten to death

[=gorgeous] [nn*]

beautiful woman
attractive wife