155
N
F
F
F
C
j
i
ij
ij
,
(8.3)
burada
ij
F
– massivin sənədlərində
i və
j terminləri cütlü-
yünün
birgə rast gəlinməsi tezliyi,
i
F
və
j
F
isə massivin
sənədlərində uyğun olaraq
i və
j terminlərinin ayrı-
ayrılıqda rast gəlinmə tezlikləri,
N – massivin sənədlərində
olan terminlərin və ya sözlərin ümumi sayıdır.
Massivin sənədlərinin mətnlərindən müvafiq söz birləş-
mələrinin seçilməsinin effektivliyini
yüksəltmək üçün əv-
vəlcə sənədin sözləri çoxluğundan bütün xidməti sözlər çıxa-
rılır, sonra isə qalan sözlər arasından birgə rast gəlinmə tezli-
yi və əlaqəlik əmsalı yüksək olan terminlərin kombinasiyala-
rı seçilir. Bu zaman tezliklər üçün müəyyən sərhəd qiymətlə-
ri daxil edilir.
ij
F
birgə rast gəlinmə tezliyi və
ij
C
əlaqəlik
dərəcəsi verilmiş hər hansı sərhəd qiymətlərindən yuxarı
olan bütün terminlər söz birləşmələri kimi qəbul edilir.
Söz birləşmələrinin seçilməsi
üçün statistik üsullar heç
də həmişə yararlı olmur. Belə ki, onlar sənədin məzmunu-
nun həddən artıq daralmasına və dolğunluğun itməsinə
gətirib çıxara bilər.
Sintaktik və semantik üsullar söz birləşmələrini təşkil
edən komponentlərin qrammatik və mətnin strukturlarının
isə linqvistik təhlilinə əsaslanırlar.
Bu üsullar təbii dillərlə
bağlı olur. Belə ki, mətnlərin sintaktik və semantik xassə-
ləri onların hazırlandığı dillərin xüsusiyyətlərindən bilava-
sitə asılı olur. Sintaktik və semantik üsulların az inkişaf et-
məsinə baxmayaraq, hal-hazırda bir sıra
mövcud tam-
mətnli axtarış sistemlərində bu üsullardan istifadə olun-
mağa başlanmışdır.