5.3. Axtarışın dəqiqliyinin yaxşılaşdırılması
üsulları
Axtarışın dəqiqliyinin yaxşılaşdırılması üsulları sor-
ğuya daha az uyğun olan, eləcə də təsadüfi və lazımsız sə-
nədləri istisna etmək və daha relevant sənədləri saxlamaq
yolu ilə sistem tərəfindən tapılaraq istifadəçiyə verilən sə-
nədlər çoxluğunu (siyahını) daraltmağa xidmət edir.
Yuxarıda qeyd olunduğu kimi, axtarışın dolğunluğunun
yaxşılaşdırılması sorğuların və sənədlərin təsviri üçün isti-
fadə olunan terminlər çoxluğunun genişləndirilməsi, habe-
lə onların digər qohum terminlərlə əvəz olunması yolu ilə
əldə edilir. Lakin dolğunluqdan fərqli olaraq, axtarışın də-
qiqliyi daha dar mənalı terminlərin və ya bir neçə terminin
(yəni söz birləşmələrinin) birgə tətbiq olunması yolu ilə
yaxşılaşdırıla bilər. Qeyd olunmalıdır ki, dolğunluğun
yaxşılaşdırılması üçün əlavə olunan terminlər sorğuya
«OR» məntiqi əməli ilə, dəqiqliyin yüksəldilməsi üçün isə
«AND» məntiqi əməli ilə daxil edilirlər.
Dar mənalı terminlərin və söz birləşmələrinin seçilməsi
üçün xüsusi üsullardan istifadə olunur. Lakin bu üsullar
bir sıra üstün və çatışmayan cəhətlərə malikdirlər.
Söz və ya termin birləşmələrinin yaradılması üçün statis-
tik üsulun məğzi aşağıdakından ibarətdir. Fərz edilir ki, mas-
sivdəki sənədlərdə söz birləşmələrinin, yəni terminlərin bir-
gə rast gəlinməsi tezliyi bu terminlərin ayrı-ayrılıqda rast gə-
linməsi tezliyindən yüksək olmur. Onda iki termin arasın-
dakı bağlılıq dərəcəsini aşağıdakı kimi müəyyən etmək olar:
155
N
F
F
F
C
j
i
ij
ij
,
(8.3)
burada
ij
F
– massivin sənədlərində i və j terminləri cütlü-
yünün birgə rast gəlinməsi tezliyi,
i
F
və
j
F
isə massivin
sənədlərində uyğun olaraq i və j terminlərinin ayrı-
ayrılıqda rast gəlinmə tezlikləri, N – massivin sənədlərində
olan terminlərin və ya sözlərin ümumi sayıdır.
Massivin sənədlərinin mətnlərindən müvafiq söz birləş-
mələrinin seçilməsinin effektivliyini yüksəltmək üçün əv-
vəlcə sənədin sözləri çoxluğundan bütün xidməti sözlər çıxa-
rılır, sonra isə qalan sözlər arasından birgə rast gəlinmə tezli-
yi və əlaqəlik əmsalı yüksək olan terminlərin kombinasiyala-
rı seçilir. Bu zaman tezliklər üçün müəyyən sərhəd qiymətlə-
ri daxil edilir.
ij
F
birgə rast gəlinmə tezliyi və
ij
C
əlaqəlik
dərəcəsi verilmiş hər hansı sərhəd qiymətlərindən yuxarı
olan bütün terminlər söz birləşmələri kimi qəbul edilir.
Söz birləşmələrinin seçilməsi üçün statistik üsullar heç
də həmişə yararlı olmur. Belə ki, onlar sənədin məzmunu-
nun həddən artıq daralmasına və dolğunluğun itməsinə
gətirib çıxara bilər.
Sintaktik və semantik üsullar söz birləşmələrini təşkil
edən komponentlərin qrammatik və mətnin strukturlarının
isə linqvistik təhlilinə əsaslanırlar. Bu üsullar təbii dillərlə
bağlı olur. Belə ki, mətnlərin sintaktik və semantik xassə-
ləri onların hazırlandığı dillərin xüsusiyyətlərindən bilava-
sitə asılı olur. Sintaktik və semantik üsulların az inkişaf et-
məsinə baxmayaraq, hal-hazırda bir sıra mövcud tam-
mətnli axtarış sistemlərində bu üsullardan istifadə olun-
mağa başlanmışdır.
|