Introduction
L'interface Web pour le corpus MCVF permet d'utiliser le logiciel CorpusSearch pour
faire des recherches dans les textes annotés syntaxiquement
afin de repérer des configurations syntaxiques d'intérêt ainsi que
les éléments lexicaux dans les structures syntaxiques pertinentes.
Une demande de recherche possible pourrait être, par exemple,
toutes les occurrences de sujets nuls dans les propositions
subordonnées où la forme fléchie de l'auxiliaire 'avoir' précède
l'objet direct. Une requête pour cette demande serait formulée ainsi. Le sommaire de la
recherche obtenu serait le suivant. En plus, CorpusSearch donne toutes les propositions
dans lesquelles le programme a trouvé la configuration spécifiée. Dans
le cas discuté ici, ce sont les occurences de la structure du type demandé. Le sommaire de la
recherche et les occurences relevées de la structure d'intérêt
apparaissent sur la même page, le sommaire
étant au-dessous de toutes les structures.
Faire une requête
La page pour créer une requête contient plusieurs boîtes avec des
paramètres de recherche qu'il faut remplir pour obtenir le
résultat. Ci-dessous on discute les paramètres de recherche un
par un ainsi que les étiquettes et les expressions régulières
qu'on peut utiliser pour créer des requêtes.
Fichier à consulter
La boîte qui se trouve sur
la page de la requête permet de sélectionner les textes que
l'on veut consulter. On peut soit faire une recherche dans tous les
textes annotés syntaxiquement, soit sélectionner un texte
particulier.
Arbre de la requête
Le logiciel CorpusSearch permet de trouver dans le corpus les
configurations que l'utilisateur spécifie à partir de l'arbre de la requête. Dans l'arbre de la
requête on peut:
-
insérer les étiquettes morphologiques et syntaxiques dans les boîtes (=noeuds syntaxiques) de l'arbre;
-
insérer les éléments lexicaux dans les boîtes de l'arbre de la
requête;
-
utiliser les expressions régulières — "!"(point
d'exclamation),"|"(barre droite),"*"(étoile) et
"."(point) — avec les étiquettes morphologiques et syntaxiques pour signifier "non",
"soit ceci soit cela", "n'importe quel(s) symbole(s)" et "un symbole
exactement" respectivement;
-
manipuler le nombre de noeuds dominés par une étiquette en tapant
soit sur "−" soit sur "+" près de la boîte désignante un
noeud syntaxique. Le nombre maximum de noeud est de quatre;
-
manipuler les relations de dominance entre les noeuds en choisissant
dans la boîte ?DOM soit "iDom"
pour désigner la dominance immédiate soit "Dom" pour désigner
la dominance en général, qui inclut la dominance immédiate et la dominance non-immédiate.
-
manipuler les relations de précédence entre les noeuds syntaxiques
en choisissant dans cette boîte soit
la relation de précédence immédiate ">>" soit la relation de
précédence en général ">" qui inclut la précédence immédiate
et la précédence non-immédiate. On peut aussi laisser la relation de
précédence "libre". Dans ce cas-là, le noeud spécifié dans la boîte à
gauche peut soit précéder soit suivre le noeud à droite.
Il y a quelques conventions qui distinguent le codage
syntaxique dans MCVF des structures adoptées dans la plupart des
approches syntaxiques et dont il faut tenir compte en faisant la
requête. Notamment:
-
La structure syntaxique n'est pas binaire dans le corpus,
c'est-à-dire qu'un noeud peut dominer immédiatement plus que deux autres noeuds. Par exemple, le noeud NP domine immédiatement un syntagme adjectival, un nom
commun et un syntagme prépositionnel, comme ici.
-
Il n'y a pas de syntagme verbal. Par contre, les noeuds
prépositionnels de type IP dominent immédiatement la
catégorie morphologique verbale et le syntagme nominal objet,
comme on peut le voir dans la structure trouvée par cette requête.
-
"Syntagme nominal" domine immédiatement le déterminant
ainsi que la catégorie morphologique "nominal" (NCS, NCPL, NPRS,
NPRPL, voir la liste des étiquettes morphologiques plus bas), comme ici.
-
Un adjectif projette un syntagme adjectival ADJP
quand il suit le nom modifié, mais il est représenté comme simplement ADJ quant il le
précède. La même chose s'applique aux quantifieurs.
On peut trouver davantage d'informations sur les conventions quant aux structures
particulières ici.
Domaine syntaxique à examiner
Dans cette boîte on indique le noeud qui va dominer
la structure à laquelle on s'intéresse.
-
Par exemple, si on indique
IP-MAT, CorpusSearch va chercher dans toutes les propositions principales (des textes choisis) la configuration qu'on a
spécifiée dans l'arbre de la requête. Par exemple, on peut indiquer NP-ACC
(l'objet direct) comme le noeud le plus haut dans l'arbre de la
requête. Dans ce cas le
programme va éxaminer tous les NP-ACC dans les propositions
principales ainsi que dans les propositions qui sont dominées par les
propositions principales. Par contre, si on choisi IP-SUB comme le
domaine à examiner, les NP-ACC dans les propositions
principales seront ingorés car
ils se trouvent à l'extérieur du domaine spécifié (IP-SUB).
-
La spécification du domaine à examiner permet de se limiter aux
contextes spécifiques. Par
exemple, si on veut obtenir comme résultat tous les cas où un
adjectif précède un nom commun au pluriel dans n'importe quel
syntagme nominal dans le domaine de n'importe quelle
proposition, on peut indiquer IP* (voir сi-dessous l'emploi
de l'étoile dans les expressions régulières) comme le domaine à
examiner. Les structures retrouvées vont ressembler à la structure suivante , obtenue à partir
d'une requête appliquée au texte
Anonyme.Sermon. Par contre, si on donne pour ce texte
IP-SUB comme le domaine à examiner, on obtient une seule structure.
Expressions utilisées dans les requêtes
Le sommaire d'une recherche
Le sommaire d'une recherche est présenté sous la forme d'un tableau de quatre
colonnes où chaque rangée correspond à un texte examiné par CorpusSearch.
La première colonne correspond au nom
d'un texte; la deuxième au nombre
d'occurrences de la
structure de l'arbre de la requête dans le domaine à examiner; la
troisième colonne au nombre de propositions indépendantes (une
structure qui ne fait pas partie d'aucune autre structure) dans ce texte dans lesquelles la structure en question est trouvée; et la quatrième colonne contient le nombre de
mots dans le texte en question. Par exemple, si ce qu'on cherche est
NP-ACC (l'objet direct) dans les propositions subordonnées, la deuxième colonne va
contenir le nombre de propositions subordonnées qui contiennent
NP-ACC. La troisième colonne va montrer le nombre de propositions indépendantes qui contiennent les propositions subordonnées en
question. En général, le chiffre dans la deuxième colonne est plus
élevé que celui dans la troisième colonne parce qu'une
proposition indépendante peut contenir plus qu'une proposition
subordonnée possédant la structure recherchée.
Ci-dessous se trouve la liste de toutes les étiquettes morphologiques
utilisées dans le corpus MCVF dans l'ordre alphabétique. Ici
on peut voir les conventions utilisées pendant le codage des textes.
| ADJ |
adjectif qualificatif |
| ADJNUM |
adjectif numéral |
| ADJR |
adjectif comparatif |
| ADJS |
adjectif superlatif |
| ADJZ |
adjectif possessif |
| ADV |
adverbe |
| ADVNEG |
adverbe négatif |
| ADVR |
adverbe comparatif |
| ADVS |
adverbe superlatif |
| AG |
auxiliaire AVOIR au gérondif |
| AJ |
auxiliaire AVOIR conjugué |
| APP |
auxiliaire AVOIR au participe passé |
| AX |
auxiliaire AVOIR à l'infinitif |
| CMP |
particule de comparaison |
| CODE |
pour matériel TEI |
| CONJO |
conjonction de coordination |
| CONJS |
conjonction de subordination |
| D |
déterminant défini, indéfini, démonstratif, contracté |
| DAT |
datif |
| DF |
déterminant partitif |
| DZ |
déterminant possessif |
| EG |
auxiliaire ÊTRE au gérondif |
| EJ |
auxiliaire ÊTRE conjugué |
| EPP |
auxiliaire ÊTRE au participe passé |
| ETR |
mot étranger |
| EX |
auxiliaire ÊTRE à l'infinitif |
| FP |
particule exprimant le focus |
| ITJ |
interjection |
| LG |
auxiliaire ALLER au gérondif |
| LJ |
auxiliaire ALLER conjugué |
| LPP |
auxiliaire ALLER au participe passé |
| LX |
auxiliaire ALLER à l'infinitif |
| MDG |
verbe modal au gérondif |
| MDJ |
verbe modal conjugué |
| MDPP |
verbe modal au participe passé |
| MDX |
verbe modal à l'infinitif |
| NCPL |
nom commun au pluriel |
| NCS |
nom commun au singulier |
| NEG |
négation NE |
| NPRPL |
nom propre au pluriel |
| NPRS |
nom propre au singulier |
| NUM |
numéral |
| P |
préposition |
| PON |
ponctuation au milieu de la proposition |
| PONFP |
ponctuation à la fin de la proposition |
| PRO |
pronom personnel, clitique, réfléchi, EN, Y, ON,
démonstratif |
| PROIMP |
pronom impersonnel |
| Q |
quantifieur |
| QR |
quantifieur comparatif |
| VG |
verbe principal au gérondif |
| VJ |
verbe principal conjugué |
| VP |
verbe présentatif (VOICI, VOILÀ) |
| VPP |
verbe principal au participe passé |
| VX |
verbe principal à l'infinitif |
| WADV |
adverbe interrogatif, relatif et exclamatif |
| WD |
déterminant interrogatif, relatif et exclamatif |
| WPRO |
pronom interrogatif, relatif et exclamatif |
| X |
parties du discours difficiles à interpréter |
A-C-F-I-N-P-Q-R-W
| A | |
| ADJP |
Syntagme adjectival |
| ADJP-LOC |
Syntagme adjectival locatif |
| ADJP-PRD |
Syntagme adjectival prédicatif |
| ADJP-SPR |
Syntagme adjectival de prédicat secondaire |
| ADJX |
Constituant adjectival ayant une projection ambigüe (ADJ, ADJ'
ou ADJP) |
| ADVP |
Syntagme adverbial |
| ADVP-DIR |
Syntagme adverbial de direction |
| ADVP-LOC |
Syntagme adverbial locatif |
| ADVP-TMP |
Syntagme adverbial temporel |
| ADVX |
Constituant adverbial ayant une projection ambigüe
(ADV, ADV' ou ADVP) |
| C |
| CONJP |
Syntagme conjonctif |
| CP-ADV |
Proposition subordonnée adverbiale |
| CP-CAR |
Proposition relative adjointe à une préposition |
| CP-CLF |
Proposition clivée |
| CP-CMP |
Proposition subordonnée comparative |
| CP-DEG |
Proposition subordonnée de degré |
| CP-EOP |
Proposition relative à opérateur nul |
| CP-EXL |
Proposition exclamative |
| CP-FRL |
Proposition relative libre |
| CP-QUE |
Proposition interrogative (directe ou indirecte) |
| CP-REL |
Proposition relative |
| CP-THT |
Proposition complément |
| F |
| FRAG |
Fragment |
| I |
| ITJP |
Syntagme interjectionel |
| IP-ABS |
Proposition absolue |
| IP-IMP |
Proposition impérative |
| IP-INF |
Proposition infinitive |
| IP-INF-PRP |
Proposition infinitive d'intention |
| IP-MAT |
Proposition matrice |
| IP-PPL |
Proposition participiale |
| IP-SMC |
Petite proposition |
| IP-SUB |
Proposition subordonnée |
| N | |
| NP |
Syntagme nominal |
| NP-ACC |
Syntagme nominal accusatif |
| NP-ADT |
Syntagme nominal adjoint |
| NP-ADV |
Syntagme nominal adverbial |
| NP-COM |
Syntagme nominal complément de substantif |
| NP-DTV |
Syntagme nominal datif |
| NP-DIR |
Syntagme nominal de direction |
| NP-LOC |
Syntagme nominal locatif |
| NP-LFD |
Syntagme nominal antéposé (ou postposé) |
| NP-MSR |
Syntagme nominal de mesure |
| NP-PART |
Syntagme nominal partitif |
| NP-PRD |
Syntagme nominal prédicatif |
| NP-PRN |
Syntagme nominal appositif |
| NP-RFL |
Syntagme nominal réfléchi |
| NP-SBJ |
Syntagme nominal de sujet |
| NP-SPR |
Syntagme nominal de prédicate secondaire |
| NP-TMP |
Syntagme nominal temporel |
| NP-VOC |
Syntagme nominal vocatif |
| NX |
Constituant nominal ayant une projection ambigüe (N, N' ou
NP) |
| P |
| PP |
Syntagme prépositionnel |
| Q |
| QP |
Syntagme quantificatif |
| QTP |
Syntagme de citation; fragment de discours direct |
| QX |
Syntagme quantificatif ayant une projection ambigüe (Q, Q' ou
QP) |
| R |
| REF |
Référence |
| RRC |
Proposition relative réduite |
| W |
| WADJP |
Syntagme adjectival qu- |
| WADVP |
Syntagme adverbial qu- |
| WNP |
Syntagme nominal qu- |
| WPP |
Syntagme prépositionel qu- |
| WQP |
Syntagme quantificatif qu- |
|
|
| -LFD |
Constituant antéposé (ou postposé) |
Par ex.: NP-LFD |
| -PRN |
Constituant appositif |
Par ex.: PP-PRN |
| -RSP |
Constituant résomptif |
Par ex.: NP-SBJ-RSP |
| -SPE |
Discours direct |
Par ex.: CP-QUE-SPE |
On peut utiliser dans une requête des catégories vides et des indices codés dans
le corpus avec les étiquettes suivantes.
| Catégories vides |
| 0 |
Opérateur nul |
| *arb* |
Sujet nul dans des constructions causatives |
| *con* |
Sujet effacé après la conjonction de coordination |
| *proimp* |
Sujet impersonnel nul |
| *pro* |
Sujet nul "petit pro" non ambigu |
| *ICH* |
Trace de l'extraposition, brouillage ou autre mouvement
qui ne fait pas partie de la dichotomie A/A' |
| *T* |
Trace du mouvement qu- |
| * |
Trace du mouvement A; aussi catégorie vide par défaut |
| Indices |
| "-#" (un trait d'union suivi d'un numéro) est utilisé dans trois
cas: |
-
pour indiquer les indices entre les antécédents et leurs
traces, comme dans ce cas retrouvé par
cette requête;
-
dans un cas de gapping, pour identifier la proposition
d'où provient l'information manquante, comme dans l'exemple ici retrouvé par
cette requête;
-
pour identifier l'associé d'un sujet impersonnel, comme
ici retrouvé par
cette requête.
|
| "=#" (un signe "égal" suivi d'un numéro) est utilisé: |
-
pour identifier les propositions avec gapping aux
propositions indépendantes, comme dans ce cas
retrouvé à partir de cette requête;
- pour identifier les sujets impersonnels ayant un associé,
comme dans les structures de ce
type retrouvées par la requête ici.
|
CorpusSearch pour MCVF en ligne permet d'utiliser plusieurs
expressions régulières pour se référer aux éléments d'intérêt
comme les catégories lexicales, morphologiques et syntaxiques.
| Expression régulière |
Emploi |
| point d'exclamation ! |
Le point d'exclamation désigne la négation des étiquettes qui le
suivent.
Par exemple, !NP-ACC désigne l'absence de NP-ACC. Ceci peut
être une façon de chercher les verbes intransitifs.
|
| barre verticale | |
On peut utiliser la barre verticale "|" pour créer des
disjonctions d'éléments.
Par exemple, la séquence
NP-DTV|NP-ACC|NP-PRD désigne un élément
qui est soit NP-ACC (objet direct), soit NP-DTV (objet au datif),
soit NP-PRD (syntagme nominal prédicatif). Une autre exemple
d'une expression utile qu'on peut créer à l'aide de la barre verticale est
VJ|AJ|EJ|MDJ|LJ qui désigne
n'importe quel verbe fléchi. |
| étoile * |
L'étoile désigne n'importe quelle séquence de symboles.
Par exemple, *J peut désigner VJ, AJ,
EJ, MDJ, LJ ainsi que ADJ. De la même
façon, NP* désigne n'importe quel syntagme nominal:
NP-DTV, NP-SBJ, NP-PRD, NP-ADV,
NP-PRN, NP-COM etc. |
| point . |
Le point sert à désigner n'importe quel symbole mais seulement un.
Par exemple, .J désigne VJ, EJ, AJ, LJ mais pas MDJ ou ADJ.
|
| combinaison d'expressions régulières |
On peut employer plusieurs expressions régulières en même
temps pour désigner un groupe d'éléments d'intérêt.
Par exemple, pour faire référence à n'importe quel verbe
fléchi, on peut créer l'expression .J|MDJ qui
correspond à une combinaison d'un symbole avec la lettre J ou
bien à l'étiquette MDJ. Parce qu'il n'y a pas d'étiquettes de
deux lettres où la deuxième est J sauf pour les verbes fléchis, en conjonction avec
MDJ ça nous donnera toutes les étiquettes possibles pour les
verbes fléchis.
On peut aussi faire la négation d'une disjonction de
symboles. L'expression !NP-ACC|CP-THT indique l'absence
d'objet direct ou de proposition complément.
|
CorpusSearch permet de chercher des éléments lexicaux
particuliers. Si on n'est pas sûr de la catégorie
grammaticale utilisée pour coder l'élément en question dans le Corpus, on peut faire une recherche préliminaire en indiquant dans l'arbre de requête
que le nœud propositionnel doit simplement dominer notre élément,
comme ici. Quand on connaît l'étiquette
utilisée pour coder l'élément lexical, on peut faire une requête plus
précise.
|