Morphèmes, morphologie


Modélisation informatique



Yüklə 83,85 Kb.
səhifə5/8
tarix25.12.2023
ölçüsü83,85 Kb.
#197119
1   2   3   4   5   6   7   8
BEGOYIM MUSTAQIL ISHI

2

Modélisation informatique





La capacité de mémoire des ordinateurs actuels est telle qu'elle permet de stocker facilement l'intégralité des formes fléchies d'une langue. On a pourtant parfois intérêt à enregistrer ces différentes formes de façon synthétique. Pour cela, nous évoquons ici deux approches possibles. La première est simplement une structure de données, c'est-à-dire une manière efficace de coder des informations, en l'occurrence des listes de mots partageant des lettres communes. La deuxième est un modèle très puissant issu de l'informatique théorique, dont nous verrons d'autres usages possibles plus loin : les automates finis. Nous montrons ici qu'ils permettent de représenter les découpages morphologiques sous la forme de règles plutôt que sous la forme de listes. En écrivant des règles, en effet, on généralise et on peut faire des prédictions, notamment sur la forme des mots nouveaux qui peuvent apparaître dans la langue et la façon dont leurs variantes morphologiques pourront décliner leurs variantes de sens.



2.1

Arbre à lettres





Pour stocker un dictionnaire de façon économique, il existe des organisations plus efficaces que les simples listes. Prenons l'exemple de la liste (arbitraire, mise à part son ordre alphabétique) de noms communs sous forme lemmatisée suivante : {abri, abus, an, anse, art, arme, as, astre}. Pour la coder efficacement, les informaticiens emploient la structure de la figure 4.2, appelée "arbre à lettres".


Figure 4.2 : un arbre à lettres


Cette structure est déjà la deuxième (après la figure 4.1) que nous rencontrons qui prend la forme d'un arbre. Ce n'est pas la dernière ! Le point de départ de ces arbres (ici la lettre a), bien qu'habituellement situé en haut de la figure, s'appelle aussi leur racine, tandis que chaque point intermédiaire (ici une lettre) est un noeud. Ces noeuds sont reliés les uns aux autres par des branches qui se développent de haut en bas jusqu'à des feuilles. Les fils d'un noeud intermédiaire (c'est-à-dire qui n'est pas une feuille) sont les noeuds situés au niveau immédiatement inférieur et reliés au premier par une branche. Un chemin est une succession de noeuds partant de la racine et suivant les branches en descendant. Dans un arbre à lettres, quand en suivant un tel chemin on parvient à épeler un mot complet de la liste, alors on entoure le noeud auquel on est parvenu. C'est le cas, bien sûr, pour les feuilles de l'arbre qui, toutes, correspondent à la fin d'un nom de la liste mais aussi pour certains noeuds intermédiaires (comme le n de "an" et le s de "as").

Certains index des logiciels documentaires, des bases de données, des correcteurs orthographiques ou des moteurs de recherche sont enregistrés dans la mémoire des ordinateurs sous cette forme. C'est grâce à de telles structures qu'il est facile pour les machines d'anticiper sur les frappes au clavier de certaines lettres. Certains chemins, en effet, ne mènent que vers un seul mot possible.

Mais les arbres à lettres ne rendent absolument pas compte de l'organisation morphologique des mots : les morphèmes n'y sont pas du tout apparents. Pour remédier à ce problème, on va introduire une structure un peu plus complexe, qui peut être interprétée comme un programme d'analyse ou de synthèse morphologique : le modèle des automates finis.




Yüklə 83,85 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin