6.4. Statistik tezliklər üsulu
Tutaq ki,
n
d
d
d
D
,...,
,
2
1
– informasiya massivində
olan sənədlər çoxluğu, n – informasiya massivində olan sə-
nədlərin sayı,
m
t
t
t
T
,...,
,
2
1
– sənədlərin məzmunlarını
daha dolğun təsvir etməyə və ya onların hansı tematikaya
mənsub olmasını müəyyən etməyə imkan verən terminlər
çoxluğu,
m
n
ij
w
W
}
{
– terminlər və sənədlər arasındakı
münasibətləri müəyyən edən matrisdir. Bu matrisin
ij
w ele-
167
mentinin qiyməti informasiya massivinin bütün sənədlərinin
xarakteristikalarını nəzərə almaqla
j
t termininin
i
d
sənə-
dində çəkisini müəyyən edir. Burada
ij
w ,
m
j
n
i
,
1
,
,
1
elementləri
]
1
,
0
[
intervalında qiymətlər alır,
0
ij
w
qiymə-
ti
j
t termininin
i
d
sənədində ümumiyyətlə rast gəlinmədi-
yini,
1
ij
w
qiyməti isə
j
t termininin
i
d
sənədinin məz-
mununa tamamilə (100%) uyğun olduğunu göstərir.
Terminlərin
ij
w çəki əmsalları sənədlərin istifadəçilər
tərəfindən açar sözlər çoxluğu şəklində tərtib olunmuş sor-
ğulara relevantlıq dərəcəsinin müəyyənləşdirilməsi üçün
istifadə olunur. Yuxarıda qeyd olunduğu kimi, informasi-
ya massivinin sənədləri axtarış sisteminin bazasında T ter-
minlər çoxluğunun alt çoxluğu ilə təsvir olunur. Ona görə
də bu modelə uyğun olaraq, axtarış prosesində elə sənəd-
lər tapılıb istifadəçilərə verilməlidir ki, onların sorğusunda
göstərilmiş açar sözlər bu sənədlərə termin qismində ən
böyük çəki əmsalları ilə daxil olsunlar.
İndi isə
ij
w çəki əmsallarının qiymətlərinin müəyyən
edilməsi üçün statistik üsula baxaq. Bu üsul iki mərhələ-
dən ibarətdir. Birinci mərhələdə hər bir terminin ayrı-ayrı
sənədlərə daxilolma tezlikləri hesablanır.
Tutaq ki,
ij
f –
j
t
termininin
i
d
sənədinə daxilolma
tezliyidir. Onda:
w
i
t
ij
ij
m
m
f
,
(6.2)
burada
t
ij
m
–
j
t termininin
i
d
- sənədinə daxil olmalarının
sayı,
w
i
m
–
i
d
sənədində olan sözlərin ümumi sayıdır. Bu-
168
radan görünür ki, sənəddə daha çox rast gəlinən istənilən
söz bu sənədin məzmununu ən dəqiq əks etdirən vacib
termin kimi qəbul oluna bilər.
Lakin praktika göstərir ki, sənəddə ən böyük rastgəlinmə
tezliyinə malik olan sözlər heç də həmişə bu sənəd üçün
vacib termin olmurlar. Belə sözlərə nümunə kimi xidməti
sözləri, bağlayıcıları, əvəzlikləri və s. göstərmək olar.
Sənədlərin məzmunlarının Zipf qanuna uyğun olaraq
təhlilinin nəticələrinə əsasən demək olar ki, əgər sənəddə hər
hansı söz böyük rastgəlinmə tezliyinə malikdirsə, lakin ter-
min deyilsə, onda bu söz massivin digər bir çox sənədlərində
də böyük tezliklə rast gəlinməlidir. Məhz bu xassə sənədlər
üçün vacib terminlərin seçilməsi prosesində istifadə oluna
bilər. Ona görə də ikinci mərhələdə informasiya massivinin
bütün sənədləri təhlil olunur və terminlərin massivin digər
sənədlərində rastgəlinmə xarakteristikaları nəzərə alınmaqla
onların həmin sənəd üçün çəki əmsalı müəyyən edilir.
Tutaq ki,
d
j
n
–
j
t
termininin rast gəlindiyi sənədlərin
sayıdır. n ilə
d
j
n
arasındakı asılılığı təhlil etmək yolu ilə
j
t
termininin verilmiş sənəd üçün hansı dərəcədə əhəmiyyətli
olduğunu müəyyən etmək olar. Burada
d
j
n
kəmiyyətini
terminlərin sənəd tezliyi adlandırırlar.
Qeyd olunmalıdır ki,
d
j
n
kəmiyyətinin qiyməti nə qədər
kiçik olarsa, terminin sənəddəki çəkisi bir o qədər böyük
olar.
d
j
n
n
log
kəmiyyəti
j
t termininin sənədləri diskrimi-
nasiya edib-etməməsi amilini özündə əks etdirən yaxşı
indeksator rolunu oynayır, yəni bu terminin əhəmiyyət
kəsb etdiyi sənədləri onun rast gəlinmədiyi digər sənəd-
lərdən fərqləndirməyə imkan verir.
169
Bu kəmiyyət əks sənəd tezliyi adlanır və aşağıdakı kimi
işarə olunur:
d
j
d
j
n
n
f
log
.
(6.3)
Terminin sənəddəki tezliyi və əks sənəd tezliyi kəmiy-
yətlərini tezlik üzrə vahid indeksləşdirmə modeli çərçivə-
sində birləşdirmək olar:
d
j
ij
ij
f
f
w
. (6.4)
(6.2) və (6.3) ifadələrini (6.4) düsturunda yerinə qoysaq,
informasiya fəzasının bütün digər sənədlərinin xarak-
teristikalarını nəzərə almaqla
j
t termininin
i
d
sənədindəki
ij
w
çəki əmsalının hesablanması üçün düsturu almış olarıq:
d
j
w
i
t
ij
ij
n
n
m
m
w
log
.
(6.5)
(6.5) düsturundan görünür ki,
j
t termininin
i
d
sənədin-
də rast gəlinmə tezliyi nə qədər böyük, eləcə də bu termi-
nin rast gəlindiyi sənədlərin sayı nə qədər az olarsa, onda
j
t termini
i
d
sənədində bir o qədər böyük çəkiyə malik
olar. Başqa sözlə, əgər
i
d
sənədi
j
t termininin cəmləşdiyi
sənəd olarsa, onda
j
t termini bu sənəd üçün əhəmiyyət
kəsb edən termin rolunu oynayar.
Qeyd olunmalıdır ki, terminlərin sənədlərə daxilolma
tezlikləri əsasında indeksləşdirmə üsulu, əsasən, axtarış
prosesinin bir xarakteristikasını – axtarışın dolğunluğunu
yüksək səviyyədə təmin etməyə imkan verir. Lakin mas-
sivin ayrı-ayrı sənədlərində terminlərin cəmlənməsi amili
eyni zamanda axtarışın yüksək dəqiqliyinin əldə olunması
üçün də istifadə oluna bilər.
|