Utilisation du Corpus of Contemporary American English

 

http://corpus2.byu.edu/coca/

 

1. Recherche d’un mot ou d’une expression

 

dissertation

 

LIST             Fréquence des mots et expressions correspondant à la requête

CHART         Tableau de leur répartition dans les sous-ensembles du corpus et dans les lustres successifs du corpus

KWIC           Affichage des contextes faisant apparaître les parties du discours en couleurs

 

L’ordre alphabétique par défaut est celui des collocats situés à droite (1R, 2R, 3R).

 

Trade

 

#KWIC : 1000

 

World Trade Center (attack, bombing, crashes, destruction, disaster…)

 

* puis L1

Permet de regrouper les collocats de gauche et de repérer ceux qui appartiennent à certaines catégories grammaticales (adjectifs en vert : American, annual, bad, bilateral…)

 

 

2. Comparaison de mots ou d’expressions

 

COMPARE

 

a) dissertation vs thesis

 

Le tri par défaut est par ratio descendant, c’est-à-dire le rapport entre le nombre de cooccurrences du mot de la liste avec W1 (dissertation) et W2 (thesis).

 

W1 et W2 représentent donc les deux mots comparés.

 

Le vert foncé indique les collocats employés préférentiellement avec l’un des mots concernés.

 

SORTED BY RATIO: CHANGE TO FREQUENCY

 

Les collocats sont triés par ordre de fréquence, ce qui privilégie les mots outils. Les diverses nuances de vert restent visibles pour indiquer la probabilité de cooccurrence.

 

On peut spécifier une partie du discours pour les collocats :

 

ADJ             Collocates  [POS]

 

doctoral dissertation est 5 fois plus employé que doctoral thesis, d’où la différence des scores (6,5 et 0,2) des couleurs employées.

 

La fenêtre par défaut est de 4 mots à gauche et à droite. Cette valeur peut être modifiée :

 

COLLOCATES                   1        0

 

Cette valeur renvoie les prémodificateurs du terme de la requête.

 

Doctoral et unpublished sont les seuls adjectifs qui qualifient le nom dissertation dans le corpus.

 

 

b) committee vs commission

 

Pour la recherche des collocats, on peut formuler une restriction lexicale :

 

COLLOCATES                   *al      1        0

 

Les adjectifs des zones blanches sont ceux pour lesquels la variation est libre : constitutional, environmental, international, judicial, memorial, special.

 

 

On peut aussi formuler une restriction concernant la partie du discours (POS ou abréviation). Par exemple, pour les adjectifs on peut donc employer [jj] ou ADJ :

 

COLLOCATES                   [jj]     1        0

 

 

c) strange             odd

 

Pour les noms on peut donc employer [nn] ou NOUN :

 

COLLOCATES                   [nn]   0        1

 

RESET

 

odd duck

 

LIST

CHART

 

3. Variations diachroniques et diastratiques

 

facebook

 

Les usages antérieurs à 2005 concernent le nom commun.

 

twitter

 

Les usages antérieurs à 2005 concernent le verbe ou le nom commun qui en est dérivé.

 

Uber

 

Les usages antérieurs à 2010 concernent le prémodificateur.

 

hypothesiz*

 

Le verbe hypothesize est majoritairement utilisé dans le contexte de la recherche universitaire.

 

 

4. Comparaison de quelques synonymes dans le sous-ensemble ACADEMIC

 

 

COMPARE

0        1

 

efficient vs effective

 

strong vs powerful

 

weak vs feeble

 

fast vs rapid

 

Recherche d’ET pour la collocation “supposer incorrectement”

 

Requête faisant apparaître les collocations de type <adverbe-verbe>

assumed vs supposed

 

COMPARE

assume

suppose

ADV

1        0

 

5. Comparaison de structures syntaxiques

 

Etude de l’effacement de la conjonction THAT introduisant une proposition complétive.

 

On cherche à comparer cet effacement dans deux types de sous-corpus : celui de la langue écrite universitaire (ACADEMIC) et celui de la langue orale (SPOKEN).

 

On compare les structures dans lesquelles les verbes claim, know et contend sont suivis de la séquence THAT – PRONOM – VERBE et les structures de même type dans lesquelles THAT est effacé.

 

La requête [claim].[v*] donnera toutes les formes verbales de claim (les crochets servent à la fois à la lemmatisation et à la limitation à une partie du discours quand ils sont reliés par un point).

 

OPTIONS

HITS : 10000

 

 

5.1 CLAIM (THAT) pronoun verb

 

ACADEMIC

 

[claim].[v*] that [p*] [v*]

694

[claim].[v*] [p*] [v*]

481

 

SPOKEN

 

[claim].[v*] that [p*] [v*]

828

[claim].[v*] [p*] [v*]

1896

 

 

5.2. KNOW THAT THE noun verb

 

On utilise une structure de moindre fréquence pour obtenir un affichage plus rapide des résultats.

 

ACADEMIC

 

[know] that the [n*] [v*]

357

[know] the [n*] [v*]

324

 

SPOKEN

 

[know] that the [n*] [v*]

1013

[know] the [n*] [v*]

1665

 

 

5.3. CONTEND THAT THE noun

 

(structure identique, mais sans le verbe final)

 

ACADEMIC

 

[contend] that the [n*]

365

[contend] the [n*]

21

 

SPOKEN

 

[contend] that the [n*]

24

[contend] the [n*]

39

 

 

6. Utilisation des parties du discours pour comparer la fréquence de certaines structures syntaxiques dans les différentes parties du corpus

 

Cliquer sur SECTIONS

 

1 SPOKEN

 

2 ACADEMIC

 

*al [nn] [nn]

 

Find matching strings

 

Renouveler la requête en portant la fréquence minimale à 20 (Sort/Limit) et en demandant l’affichage de 200 résultats (Options)

 

 

 

Help / Information / Contact

         SEARCHES    Query syntax

                   [pos] More information

                            Click here for a list of these part of speech tags.

 

List of part of speech tags

You can also use part of speech tags is by selecting them from the drop-down list (click on [POS LIST] to show it).

 

 

 

Syntax

Meaning

Examples (Click to run)

Sample matches

[pos]
[pos*]

Part of speech (exact)
Part of speech (wildcard)

[vvg]
[v*]
 

going, using
find, does, keeping, started

 

[lemma]

Lemmas (all forms of a word)

[sing]
[tall]

sing, singing, sang
tall, taller, tallest

[=word]

Synonyms
[=weak]
 

low, tired, soft, vulnerable, etc.

 

 

word|word

Any of these words

stunning|gorgeous|charming

stunning, charming, gorgeous

*xx
x?xx
x?xx*

Wildcard: * = any # letters
Wildcard: ? = one letter

un*ly
s?ng
s?ng*

unlikely, unusually
sing, sang, song
song, singer, songbirds

-word

NOT (followed by PoS, lemma, word, etc. Most useful for "multiple slot" queries; see below)

-[nn*]

the, in, is

Combinations of preceding (samples)

You can limit to a particular part of speech by adding a period (full stop) and then the part of speech tag in brackets.

word.[pos]

Exact word and part of speech

strike.[v*]

strike (only as a verb)

word*.[pos]

Substring and part of speech

dis*.[vvd]

discovered, disappeared, discussed

[lemma].[pos]

Lemma and part of speech

[strike].[v*]

strike, struck, striking

[word].[pos]

Synonym and part of speech

[=beat].[v*]

hit, strike, defeat
(but not nouns, like rhythm or drumming)

You can add "lemma" to any other type of search, such as synonym or customized list, to see all forms of the matching words. Just use an extra set of brackets.

[[=word]]

Synonym and lemma

[[=publish]]

announced, circulating, publishes, issue
(no part of speech specified, so some noun uses)

You can also choose lemma and part of speech by combining the preceding symbols

[[=word]].[pos]

Synonym and lemma and part of speech

[[=clean]].[v*]

mop, scrubs, polishing

Multiple "slots" : Create sequences of words, using any of the preceding query types. Note that in each case, there is a space between the word "slots" in the query. These are just a few examples, from an unlimited number of combinations. Note on advanced queries involving variable length between words.

nooks and crannies

nooks and crannies

fast|quick|rapid [nn*]

fast food
rapid transit

pretty -[nn*]

pretty smart
pretty as
(but not pretty girl, pretty picture, etc)

[get] her to [v*]

get her to stay
got her to sleep

.|,|;  nevertheless [p*] [v*]
(Notice that punctuation can be used like any "word";
just make sure that it is separated from words by a space)

. Nevertheless it is
; nevertheless he said

[break] the [nn*]

break the law
broke the story

[[beat]].[v*] * [nn*]

beat the Yankees
beaten to death

[=gorgeous] [nn*]

beautiful woman
attractive wife