CorpusSearch pour le corpus MCVF en ligne


Introduction

L'interface Web pour le corpus MCVF permet d'utiliser le logiciel CorpusSearch pour faire des recherches dans les textes annotés syntaxiquement afin de repérer des configurations syntaxiques d'intérêt ainsi que les éléments lexicaux dans les structures syntaxiques pertinentes.

Une demande de recherche possible pourrait être, par exemple, toutes les occurrences de sujets nuls dans les propositions subordonnées où la forme fléchie de l'auxiliaire 'avoir' précède l'objet direct. Une requête pour cette demande serait formulée ainsi. Le sommaire de la recherche obtenu serait le suivant. En plus, CorpusSearch donne toutes les propositions dans lesquelles le programme a trouvé la configuration spécifiée. Dans le cas discuté ici, ce sont les occurences de la structure du type demandé. Le sommaire de la recherche et les occurences relevées de la structure d'intérêt apparaissent sur la même page, le sommaire étant au-dessous de toutes les structures.

Faire une requête

La page pour créer une requête contient plusieurs boîtes avec des paramètres de recherche qu'il faut remplir pour obtenir le résultat. Ci-dessous on discute les paramètres de recherche un par un ainsi que les étiquettes et les expressions régulières qu'on peut utiliser pour créer des requêtes.

Fichier à consulter

La boîte qui se trouve sur la page de la requête permet de sélectionner les textes que l'on veut consulter. On peut soit faire une recherche dans tous les textes annotés syntaxiquement, soit sélectionner un texte particulier.

Arbre de la requête

Le logiciel CorpusSearch permet de trouver dans le corpus les configurations que l'utilisateur spécifie à partir de l'arbre de la requête. Dans l'arbre de la requête on peut:

  • insérer les étiquettes morphologiques et syntaxiques dans les boîtes (=noeuds syntaxiques) de l'arbre;

  • insérer les éléments lexicaux dans les boîtes de l'arbre de la requête;

  • utiliser les expressions régulières — "!"(point d'exclamation),"|"(barre droite),"*"(étoile) et "."(point) — avec les étiquettes morphologiques et syntaxiques pour signifier "non", "soit ceci soit cela", "n'importe quel(s) symbole(s)" et "un symbole exactement" respectivement;

  • manipuler le nombre de noeuds dominés par une étiquette en tapant soit sur "−" soit sur "+" près de la boîte désignante un noeud syntaxique. Le nombre maximum de noeud est de quatre;

  • manipuler les relations de dominance entre les noeuds en choisissant dans la boîte ?DOM soit "iDom" pour désigner la dominance immédiate soit "Dom" pour désigner la dominance en général, qui inclut la dominance immédiate et la dominance non-immédiate.

  • manipuler les relations de précédence entre les noeuds syntaxiques en choisissant dans cette boîte soit la relation de précédence immédiate ">>" soit la relation de précédence en général ">" qui inclut la précédence immédiate et la précédence non-immédiate. On peut aussi laisser la relation de précédence "libre". Dans ce cas-là, le noeud spécifié dans la boîte à gauche peut soit précéder soit suivre le noeud à droite.

Il y a quelques conventions qui distinguent le codage syntaxique dans MCVF des structures adoptées dans la plupart des approches syntaxiques et dont il faut tenir compte en faisant la requête. Notamment:

  • La structure syntaxique n'est pas binaire dans le corpus, c'est-à-dire qu'un noeud peut dominer immédiatement plus que deux autres noeuds. Par exemple, le noeud NP domine immédiatement un syntagme adjectival, un nom commun et un syntagme prépositionnel, comme ici.

  • Il n'y a pas de syntagme verbal. Par contre, les noeuds prépositionnels de type IP dominent immédiatement la catégorie morphologique verbale et le syntagme nominal objet, comme on peut le voir dans la structure trouvée par cette requête.

  • "Syntagme nominal" domine immédiatement le déterminant ainsi que la catégorie morphologique "nominal" (NCS, NCPL, NPRS, NPRPL, voir la liste des étiquettes morphologiques plus bas), comme ici.

  • Un adjectif projette un syntagme adjectival ADJP quand il suit le nom modifié, mais il est représenté comme simplement ADJ quant il le précède. La même chose s'applique aux quantifieurs.

    On peut trouver davantage d'informations sur les conventions quant aux structures particulières ici.

Domaine syntaxique à examiner

Dans cette boîte on indique le noeud qui va dominer la structure à laquelle on s'intéresse.

  • Par exemple, si on indique IP-MAT, CorpusSearch va chercher dans toutes les propositions principales (des textes choisis) la configuration qu'on a spécifiée dans l'arbre de la requête. Par exemple, on peut indiquer NP-ACC (l'objet direct) comme le noeud le plus haut dans l'arbre de la requête. Dans ce cas le programme va éxaminer tous les NP-ACC dans les propositions principales ainsi que dans les propositions qui sont dominées par les propositions principales. Par contre, si on choisi IP-SUB comme le domaine à examiner, les NP-ACC dans les propositions principales seront ingorés car ils se trouvent à l'extérieur du domaine spécifié (IP-SUB).

  • La spécification du domaine à examiner permet de se limiter aux contextes spécifiques. Par exemple, si on veut obtenir comme résultat tous les cas où un adjectif précède un nom commun au pluriel dans n'importe quel syntagme nominal dans le domaine de n'importe quelle proposition, on peut indiquer IP* (voir сi-dessous l'emploi de l'étoile dans les expressions régulières) comme le domaine à examiner. Les structures retrouvées vont ressembler à la structure suivante , obtenue à partir d'une requête appliquée au texte Anonyme.Sermon. Par contre, si on donne pour ce texte IP-SUB comme le domaine à examiner, on obtient une seule structure.

Expressions utilisées dans les requêtes

Le sommaire d'une recherche

Le sommaire d'une recherche est présenté sous la forme d'un tableau de quatre colonnes où chaque rangée correspond à un texte examiné par CorpusSearch.

La première colonne correspond au nom d'un texte; la deuxième au nombre d'occurrences de la structure de l'arbre de la requête dans le domaine à examiner; la troisième colonne au nombre de propositions indépendantes (une structure qui ne fait pas partie d'aucune autre structure) dans ce texte dans lesquelles la structure en question est trouvée; et la quatrième colonne contient le nombre de mots dans le texte en question. Par exemple, si ce qu'on cherche est NP-ACC (l'objet direct) dans les propositions subordonnées, la deuxième colonne va contenir le nombre de propositions subordonnées qui contiennent NP-ACC. La troisième colonne va montrer le nombre de propositions indépendantes qui contiennent les propositions subordonnées en question. En général, le chiffre dans la deuxième colonne est plus élevé que celui dans la troisième colonne parce qu'une proposition indépendante peut contenir plus qu'une proposition subordonnée possédant la structure recherchée.


Étiquettes morphologiques

Ci-dessous se trouve la liste de toutes les étiquettes morphologiques utilisées dans le corpus MCVF dans l'ordre alphabétique. Ici on peut voir les conventions utilisées pendant le codage des textes.

ADJ adjectif qualificatif
ADJNUM adjectif numéral
ADJR adjectif comparatif
ADJS adjectif superlatif
ADJZ adjectif possessif
ADV adverbe
ADVNEG adverbe négatif
ADVR adverbe comparatif
ADVS adverbe superlatif
AG auxiliaire AVOIR au gérondif
AJ auxiliaire AVOIR conjugué
APP auxiliaire AVOIR au participe passé
AX auxiliaire AVOIR à l'infinitif
CMP particule de comparaison
CODE pour matériel TEI
CONJO conjonction de coordination
CONJS conjonction de subordination
D déterminant défini, indéfini, démonstratif, contracté
DAT datif
DF déterminant partitif
DZ déterminant possessif
EG auxiliaire ÊTRE au gérondif
EJ auxiliaire ÊTRE conjugué
EPP auxiliaire ÊTRE au participe passé
ETR mot étranger
EX auxiliaire ÊTRE à l'infinitif
FP particule exprimant le focus
ITJ interjection
LG auxiliaire ALLER au gérondif
LJ auxiliaire ALLER conjugué
LPP auxiliaire ALLER au participe passé
LX auxiliaire ALLER à l'infinitif
MDG verbe modal au gérondif
MDJ verbe modal conjugué
MDPP verbe modal au participe passé
MDX verbe modal à l'infinitif
NCPL nom commun au pluriel
NCS nom commun au singulier
NEG négation NE
NPRPL nom propre au pluriel
NPRS nom propre au singulier
NUM numéral
P préposition
PON ponctuation au milieu de la proposition
PONFP ponctuation à la fin de la proposition
PRO pronom personnel, clitique, réfléchi, EN, Y, ON, démonstratif
PROIMP pronom impersonnel
Q quantifieur
QR quantifieur comparatif
VG verbe principal au gérondif
VJ verbe principal conjugué
VP verbe présentatif (VOICI, VOILÀ)
VPP verbe principal au participe passé
VX verbe principal à l'infinitif
WADV adverbe interrogatif, relatif et exclamatif
WD déterminant interrogatif, relatif et exclamatif
WPRO pronom interrogatif, relatif et exclamatif
X parties du discours difficiles à interpréter

Étiquettes syntaxiques


A-C-F-I-N-P-Q-R-W

Étiquettes de base
A
ADJP Syntagme adjectival
ADJP-LOC Syntagme adjectival locatif
ADJP-PRD Syntagme adjectival prédicatif
ADJP-SPR Syntagme adjectival de prédicat secondaire
ADJX Constituant adjectival ayant une projection ambigüe (ADJ, ADJ' ou ADJP)
ADVP Syntagme adverbial
ADVP-DIR Syntagme adverbial de direction
ADVP-LOC Syntagme adverbial locatif
ADVP-TMP Syntagme adverbial temporel
ADVX Constituant adverbial ayant une projection ambigüe (ADV, ADV' ou ADVP)
C
CONJP Syntagme conjonctif
CP-ADV Proposition subordonnée adverbiale
CP-CAR Proposition relative adjointe à une préposition
CP-CLF Proposition clivée
CP-CMP Proposition subordonnée comparative
CP-DEG Proposition subordonnée de degré
CP-EOP Proposition relative à opérateur nul
CP-EXL Proposition exclamative
CP-FRL Proposition relative libre
CP-QUE Proposition interrogative (directe ou indirecte)
CP-REL Proposition relative
CP-THT Proposition complément
F
FRAG Fragment
I
ITJP Syntagme interjectionel
IP-ABS Proposition absolue
IP-IMP Proposition impérative
IP-INF Proposition infinitive
IP-INF-PRP Proposition infinitive d'intention
IP-MAT Proposition matrice
IP-PPL Proposition participiale
IP-SMC Petite proposition
IP-SUB Proposition subordonnée
N
NP Syntagme nominal
NP-ACC Syntagme nominal accusatif
NP-ADT Syntagme nominal adjoint
NP-ADV Syntagme nominal adverbial
NP-COM Syntagme nominal complément de substantif
NP-DTV Syntagme nominal datif
NP-DIR Syntagme nominal de direction
NP-LOC Syntagme nominal locatif
NP-LFD Syntagme nominal antéposé (ou postposé)
NP-MSR Syntagme nominal de mesure
NP-PART Syntagme nominal partitif
NP-PRD Syntagme nominal prédicatif
NP-PRN Syntagme nominal appositif
NP-RFL Syntagme nominal réfléchi
NP-SBJ Syntagme nominal de sujet
NP-SPR Syntagme nominal de prédicate secondaire
NP-TMP Syntagme nominal temporel
NP-VOC Syntagme nominal vocatif
NX Constituant nominal ayant une projection ambigüe (N, N' ou NP)
P
PP Syntagme prépositionnel
Q
QP Syntagme quantificatif
QTP Syntagme de citation; fragment de discours direct
QX Syntagme quantificatif ayant une projection ambigüe (Q, Q' ou QP)
R
REF Référence
RRC Proposition relative réduite
W
WADJP Syntagme adjectival qu-
WADVP Syntagme adverbial qu-
WNP Syntagme nominal qu-
WPP Syntagme prépositionel qu-
WQP Syntagme quantificatif qu-

Étiquettes complexes
-LFD Constituant antéposé (ou postposé) Par ex.: NP-LFD
-PRN Constituant appositif Par ex.: PP-PRN
-RSP Constituant résomptif Par ex.: NP-SBJ-RSP
-SPE Discours direct Par ex.: CP-QUE-SPE

Catégories vides et indices

On peut utiliser dans une requête des catégories vides et des indices codés dans le corpus avec les étiquettes suivantes.

Catégories vides
0 Opérateur nul
*arb* Sujet nul dans des constructions causatives
*con* Sujet effacé après la conjonction de coordination
*proimp* Sujet impersonnel nul
*pro* Sujet nul "petit pro" non ambigu
*ICH* Trace de l'extraposition, brouillage ou autre mouvement qui ne fait pas partie de la dichotomie A/A'
*T* Trace du mouvement qu-
* Trace du mouvement A; aussi catégorie vide par défaut
Indices
"-#" (un trait d'union suivi d'un numéro) est utilisé dans trois cas:
  1. pour indiquer les indices entre les antécédents et leurs traces, comme dans ce cas retrouvé par cette requête;

  2. dans un cas de gapping, pour identifier la proposition d'où provient l'information manquante, comme dans l'exemple ici retrouvé par cette requête;

  3. pour identifier l'associé d'un sujet impersonnel, comme ici retrouvé par cette requête.

"=#" (un signe "égal" suivi d'un numéro) est utilisé:
  1. pour identifier les propositions avec gapping aux propositions indépendantes, comme dans ce cas retrouvé à partir de cette requête;

  2. pour identifier les sujets impersonnels ayant un associé, comme dans les structures de ce type retrouvées par la requête ici.

Expressions régulières

CorpusSearch pour MCVF en ligne permet d'utiliser plusieurs expressions régulières pour se référer aux éléments d'intérêt comme les catégories lexicales, morphologiques et syntaxiques.

Expression régulière Emploi
point d'exclamation !

Le point d'exclamation désigne la négation des étiquettes qui le suivent.

Par exemple, !NP-ACC désigne l'absence de NP-ACC. Ceci peut être une façon de chercher les verbes intransitifs.

barre verticale |

On peut utiliser la barre verticale "|" pour créer des disjonctions d'éléments.

Par exemple, la séquence NP-DTV|NP-ACC|NP-PRD désigne un élément qui est soit NP-ACC (objet direct), soit NP-DTV (objet au datif), soit NP-PRD (syntagme nominal prédicatif). Une autre exemple d'une expression utile qu'on peut créer à l'aide de la barre verticale est VJ|AJ|EJ|MDJ|LJ qui désigne n'importe quel verbe fléchi.

étoile *

L'étoile désigne n'importe quelle séquence de symboles.

Par exemple, *J peut désigner VJ, AJ, EJ, MDJ, LJ ainsi que ADJ. De la même façon, NP* désigne n'importe quel syntagme nominal: NP-DTV, NP-SBJ, NP-PRD, NP-ADV, NP-PRN, NP-COM etc.

point .

Le point sert à désigner n'importe quel symbole mais seulement un.

Par exemple, .J désigne VJ, EJ, AJ, LJ mais pas MDJ ou ADJ.

combinaison d'expressions régulières

On peut employer plusieurs expressions régulières en même temps pour désigner un groupe d'éléments d'intérêt.

Par exemple, pour faire référence à n'importe quel verbe fléchi, on peut créer l'expression .J|MDJ qui correspond à une combinaison d'un symbole avec la lettre J ou bien à l'étiquette MDJ. Parce qu'il n'y a pas d'étiquettes de deux lettres où la deuxième est J sauf pour les verbes fléchis, en conjonction avec MDJ ça nous donnera toutes les étiquettes possibles pour les verbes fléchis.

On peut aussi faire la négation d'une disjonction de symboles. L'expression !NP-ACC|CP-THT indique l'absence d'objet direct ou de proposition complément.

Éléments lexicaux d'intérêt

CorpusSearch permet de chercher des éléments lexicaux particuliers. Si on n'est pas sûr de la catégorie grammaticale utilisée pour coder l'élément en question dans le Corpus, on peut faire une recherche préliminaire en indiquant dans l'arbre de requête que le nœud propositionnel doit simplement dominer notre élément, comme ici. Quand on connaît l'étiquette utilisée pour coder l'élément lexical, on peut faire une requête plus précise.