sorte montée en grade et a pris une importance que nous n’anticipions pas. C’est ce
phénomène que nous tentons brièvement d’expliquer maintenant.
La notion d’étiquette sémantique n’a pas été construite originellement comme
une fin en soi, mais « faute de mieux », à partir des trois constatations suivantes.
1) Toute description de nature lexicographique (dictionnaire ou base lexicale)
doit intégrer une modélisation du sens de chaque lexie, qui idéalement est le centre
de gravité de la modélisation en question.
2) La modélisation du sens lexical la plus opératoire et la plus linguistique par
nature est la définition lexicographique, telle qu’on la trouve dans les « bons »
dictionnaires de langue ou dans les dictionnaires théoriques, de nature plus formelle,
comme ceux élaborés dans le contexte du
Natural Semantic Metalanguage
(Wierzbicka 1985, 1987) ou de la Lexicographie Explicative et Combinatoire
(Mel’čuk et coll. 1984, 1988, 1992, 1999).
3) L’état de l’art en traitement automatique de la langue ne permet pas
d’effectuer de véritable calcul sémantique fondé sur les définitions lexicographiques,
soit parce que celles-ci ne sont pas formalisées du tout (cas des dictionnaires de
langue), soit parce qu’elles sont formalisées de façon trop approximative et, surtout,
ne couvrent pas un éventail suffisamment riche du lexique de chaque langue.
Il s’agissait alors
pour nous de constatations, issues de la pratique des
domaines de la lexicologie, de la lexicographie et du traitement automatique des
langues. Le terme de
constatations présupposant que les trois points en question sont
valides, le lecteur pourra lui substituer celui de
postulats, s’il n’adhère pas à ce qui
vient d’être énoncé. On peut notamment être en désaccord
avec le fait que la
définition lexicographique est la meilleure modélisation du sens lexical, et lui
préférer par exemple des structures logiques, comme celles du Lexique Génératif
(Pustejovsky 1995, 1998).
On peut aussi soutenir que, malgré leur absence de
formalisation, les définitions des dictionnaires de langue – comme le TLFi et le
Petit
Robert, pour le français, ou le
Longman Dictionary of Contemporary English, pour
l’anglais – sont suffisamment bien construites pour permettre un calcul sémantique
véritable en traitement automatique de la langue. Nous ne pouvons entreprendre ici
une réfutation argumentée de ces points de vue alternatifs, et nous nous contentons
donc de rendre au moins explicites les présupposés de l’approche qui est la nôtre.
Lorsque nous avons décidé avec I. Mel’čuk d’adjoindre à la pratique de la
Lexicographie Explicative et Combinatoire un travail de construction d’une base
lexicale du français suffisamment formalisée pour pouvoir servir de support au
traitement
automatique de la langue, les trois constatations ci-dessus ont été prises
en considération pour explorer une alternative à la définition lexicographique,
alternative qui devait ménager à la fois la chèvre du traitement automatique et le
chou de la sémantique définitionnelle. Les étiquettes sémantiques
se sont alors
imposées comme un outil descriptif approprié, outil que nous n’avons cessé
d’affiner et améliorer. Cela s’est fait à la fois par la pratique descriptive, dans le
cadre de l’élaboration de la base DiCo et du LAF, et par des réflexions
de nature
plus théoriques sur l’organisation elle-même du système des étiquettes sémantiques
(Milićević 1997, Polguère 2003a, Milićević et Polguère 2010).
Il est important de mentionner que, si des ajustements formels ont été apportés
12
au système des étiquettes sémantiques, nous ne nous sommes jamais écarté des trois
principes suivants dans le cours de son élaboration.
1) Une étiquette sémantique est fondamentalement déterminée, non par un
ensemble de propriétés de combinatoire des lexies qu’elle classifie (même si de
telles propriétés existent), mais par la relation de paraphrase minimale qu’elle
entretient avec ces lexies.
2) Chaque langue possède son propre système d’étiquettes sémantiques, qui
reflète la structuration particulière de son lexique.
3) Les étiquettes ne doivent pas être posées
a priori, mais être identifiées
strictement de façon inductive, dans le cadre du processus de modélisation
lexicographique du lexique de la langue.
En suivant ces trois principes, il a été possible d’élaborer un système
d’étiquettes sémantiques pour le français encore très incomplet, mais suffisamment
riche pour que l’on identifie des régularités permettant une certaine systématisation
du traitement lexicographique de cette langue. Notons que, si le deuxième principe
mentionné ci-dessus affirme la non-universalité du système des étiquettes
sémantiques, nous pensons que le sommet de la hiérarchie
est vraisemblablement
équivalent dans toutes les langues. La hiérarchie du français se déploie en effet à
Dostları ilə paylaş: