Classification sémantique des lexies fondée sur le paraphrasage

En guise de conclusion : retour sur l’origine et l’évolution de la notion

Yüklə 1,24 Mb.

Pdf görüntüsü

səhifə	10/12
tarix	02.06.2023
ölçüsü	1,24 Mb.
	#122333

1 ... 4 5 6 7 8 9 10 11 12

4. En guise de conclusion : retour sur l’origine et l’évolution de la notion
Pour terminer notre présentation de la notion d’étiquette sémantique, il nous
semble intéressant de revenir sur son origine. Il s’agit d’une notion qui, comme les
synsets de WordNet (Fellbaum 1998) ou les classes d’objets (Gross 1994, 2008 ;
Buvet et Grezka 2009), est intimement liée à une problématique de modélisation
formelle de type lexicographique. Très périphérique au départ, elle est en quelque
11

sorte montée en grade et a pris une importance que nous n’anticipions pas. C’est ce
phénomène que nous tentons brièvement d’expliquer maintenant.
La notion d’étiquette sémantique n’a pas été construite originellement comme
une fin en soi, mais « faute de mieux », à partir des trois constatations suivantes.
1) Toute description de nature lexicographique (dictionnaire ou base lexicale)
doit intégrer une modélisation du sens de chaque lexie, qui idéalement est le centre
de gravité de la modélisation en question.
2) La modélisation du sens lexical la plus opératoire et la plus linguistique par
nature est la définition lexicographique, telle qu’on la trouve dans les « bons »
dictionnaires de langue ou dans les dictionnaires théoriques, de nature plus formelle,
comme ceux élaborés dans le contexte du Natural Semantic Metalanguage
(Wierzbicka 1985, 1987) ou de la Lexicographie Explicative et Combinatoire
(Mel’čuk et coll. 1984, 1988, 1992, 1999).
3) L’état de l’art en traitement automatique de la langue ne permet pas
d’effectuer de véritable calcul sémantique fondé sur les définitions lexicographiques,
soit parce que celles-ci ne sont pas formalisées du tout (cas des dictionnaires de
langue), soit parce qu’elles sont formalisées de façon trop approximative et, surtout,
ne couvrent pas un éventail suffisamment riche du lexique de chaque langue.
Il s’agissait alors pour nous de constatations, issues de la pratique des
domaines de la lexicologie, de la lexicographie et du traitement automatique des
langues. Le terme de constatations présupposant que les trois points en question sont
valides, le lecteur pourra lui substituer celui de postulats, s’il n’adhère pas à ce qui
vient d’être énoncé. On peut notamment être en désaccord avec le fait que la
définition lexicographique est la meilleure modélisation du sens lexical, et lui
préférer par exemple des structures logiques, comme celles du Lexique Génératif
(Pustejovsky 1995, 1998). On peut aussi soutenir que, malgré leur absence de
formalisation, les définitions des dictionnaires de langue – comme le TLFi et le Petit
Robert, pour le français, ou le Longman Dictionary of Contemporary English, pour
l’anglais – sont suffisamment bien construites pour permettre un calcul sémantique
véritable en traitement automatique de la langue. Nous ne pouvons entreprendre ici
une réfutation argumentée de ces points de vue alternatifs, et nous nous contentons
donc de rendre au moins explicites les présupposés de l’approche qui est la nôtre.
Lorsque nous avons décidé avec I. Mel’čuk d’adjoindre à la pratique de la
Lexicographie Explicative et Combinatoire un travail de construction d’une base
lexicale du français suffisamment formalisée pour pouvoir servir de support au
traitement automatique de la langue, les trois constatations ci-dessus ont été prises
en considération pour explorer une alternative à la définition lexicographique,
alternative qui devait ménager à la fois la chèvre du traitement automatique et le
chou de la sémantique définitionnelle. Les étiquettes sémantiques se sont alors
imposées comme un outil descriptif approprié, outil que nous n’avons cessé
d’affiner et améliorer. Cela s’est fait à la fois par la pratique descriptive, dans le
cadre de l’élaboration de la base DiCo et du LAF, et par des réflexions de nature
plus théoriques sur l’organisation elle-même du système des étiquettes sémantiques
(Milićević 1997, Polguère 2003a, Milićević et Polguère 2010).
Il est important de mentionner que, si des ajustements formels ont été apportés
12

au système des étiquettes sémantiques, nous ne nous sommes jamais écarté des trois
principes suivants dans le cours de son élaboration.
1) Une étiquette sémantique est fondamentalement déterminée, non par un
ensemble de propriétés de combinatoire des lexies qu’elle classifie (même si de
telles propriétés existent), mais par la relation de paraphrase minimale qu’elle
entretient avec ces lexies.
2) Chaque langue possède son propre système d’étiquettes sémantiques, qui
reflète la structuration particulière de son lexique.
3) Les étiquettes ne doivent pas être posées a priori, mais être identifiées
strictement de façon inductive, dans le cadre du processus de modélisation
lexicographique du lexique de la langue.
En suivant ces trois principes, il a été possible d’élaborer un système
d’étiquettes sémantiques pour le français encore très incomplet, mais suffisamment
riche pour que l’on identifie des régularités permettant une certaine systématisation
du traitement lexicographique de cette langue. Notons que, si le deuxième principe
mentionné ci-dessus affirme la non-universalité du système des étiquettes
sémantiques, nous pensons que le sommet de la hiérarchie est vraisemblablement
équivalent dans toutes les langues. La hiérarchie du français se déploie en effet à

Yüklə 1,24 Mb.

Dostları ilə paylaş:

1 ... 4 5 6 7 8 9 10 11 12