- usage de statistiques pour
tous les faits de langue
- études quantitatives / qualitatives
- fréquence dans tous les domaines de la linguistique - phonologique, syntaxe...
- statistique lexicale : méthode statistique pour la description du vocabulaire
- permet de mesurer la fréquence des mots et ainsi de faire apparaître les mots les plus courants
- question de stylistique notamment (usages de vocabulaires différents
dans des situations
différentes)
- > problème de
comptage
- > le lexique est formé d’un ensemble d’unité ouvert
- > plus que la syntaxe, la morphologie ou la phonologie, le lexique varie d’un locuteur à un autre et
chez un même locuteur d’un état à un autre
- comment en outre compter les locutions ou les mots composés ?
clin d’œil = 1 car
clin n’existe
plus tout seul mais
coup d’œil,
coup d’État,
coup d’essai ? + difficultés avec les mots contractés
aux,
au ex :
au fils,
à la fille ? (à + le)
- chaque chercheur doit poser ses propres normes et parfois sur de grands textes, il n’y aura pas les
mêmes résultats d’un chercheur à un autre
- nécessité de découper en «mots» (unités élémentaires, bien délimitées
par les typographies et
l’écriture ici) puis chaque mot sous «
vocable»
- > vocable = unité de lexique // mot = unité de texte, on lit un mot dans un texte mais c’est
le vocable qui apparaît dans le dictionnaire
- regrouper sous vocable nécessite :
- séparation des homographes (graphie identique mais sens différent)
- regroupement des formes fléchies (
pars, parti, partira)
=> liste des vocables qui ont au moins une occurrence dans le
texte avec le nombre de ces
occurrences => fréquence absolue
=> nombre des vocables = étendue du
vocabulaire du texte
- élaboration d’un index
- indexation mécanique =
index de formes - liste alphabétique qui ne distingue ni homographes ni
ne regroupe formes (certains logiciels permettent de le faire)