Microsoft Word Qasimov-ias docx


  Statistik tezliklər üsulu



Yüklə 1,74 Mb.
Pdf görüntüsü
səhifə106/177
tarix01.01.2022
ölçüsü1,74 Mb.
#50803
növüDərs
1   ...   102   103   104   105   106   107   108   109   ...   177
N 406

6.4.  Statistik tezliklər üsulu 
Tutaq ki, 


n
d
d
d
D
,...,
,
2
1

 – informasiya massivində
olan sənədlər çoxluğu, – informasiya massivində olan sə-
nədlərin sayı, 


m
t
t
t
T
,...,
,
2
1

 –  sənədlərin məzmunlarını
daha dolğun təsvir etməyə  və ya onların hansı tematikaya 
mənsub olmasını müəyyən etməyə imkan verən terminlər 
çoxluğu, 
m
n
ij
w
W


}
{
  – terminlər və  sənədlər arasındakı 
münasibətləri müəyyən edən matrisdir. Bu matrisin 
ij
 ele-


167 
mentinin qiyməti informasiya massivinin bütün sənədlərinin 
xarakteristikalarını  nəzərə almaqla 
j
 termininin 
i
d
 sənə-
dində  çəkisini müəyyən edir. Burada 
ij

m
j
n
i
,
1
,
,
1


elementləri 
]
1
,
0
[
 intervalında qiymətlər alır, 
0

ij
w
 qiymə-
ti 
j
 termininin 
i
d
 
sənədində ümumiyyətlə rast gəlinmədi-
yini, 
1

ij
w
 qiyməti isə 
j
 termininin 
i
d
 sənədinin məz-
mununa tamamilə (100%) uyğun olduğunu göstərir. 
Terminlərin 
ij
 çəki  əmsalları  sənədlərin istifadəçilər 
tərəfindən açar sözlər çoxluğu şəklində tərtib olunmuş sor-
ğulara relevantlıq dərəcəsinin müəyyənləşdirilməsi üçün 
istifadə olunur. Yuxarıda qeyd olunduğu kimi, informasi-
ya massivinin sənədləri axtarış sisteminin bazasında T ter-
minlər çoxluğunun alt çoxluğu ilə təsvir olunur. Ona görə 
də bu modelə uyğun olaraq, axtarış prosesində elə sənəd-
lər tapılıb istifadəçilərə verilməlidir ki, onların sorğusunda 
göstərilmiş açar sözlər bu sənədlərə termin qismində  ən 
böyük çəki əmsalları ilə daxil olsunlar. 
İndi isə 
ij
 çəki  əmsallarının qiymətlərinin müəyyən 
edilməsi üçün statistik üsula baxaq. Bu üsul iki mərhələ-
dən ibarətdir. Birinci mərhələdə hər bir terminin ayrı-ayrı 
sənədlərə daxilolma tezlikləri hesablanır.  
Tutaq ki, 
ij
 – 
j
t
 
termininin 
i
d
 
sənədinə daxilolma 
tezliyidir. Onda: 
w
i
t
ij
ij
m
m
f

,
(6.2)
burada 
t
ij
m
 – 
j
 termininin 
i
d
- sənədinə daxil olmalarının
sayı, 
w
i
m
 – 
i
d
 
sənədində olan sözlərin ümumi sayıdır. Bu-


 
 
168 
 
radan görünür ki, sənəddə daha çox rast gəlinən istənilən 
söz bu sənədin məzmununu  ən dəqiq  əks etdirən vacib 
termin kimi qəbul oluna bilər. 
Lakin praktika göstərir ki, sənəddə ən böyük rastgəlinmə 
tezliyinə malik olan sözlər heç də  həmişə bu sənəd üçün 
vacib termin olmurlar. Belə sözlərə nümunə kimi xidməti 
sözləri, bağlayıcıları, əvəzlikləri və s. göstərmək olar. 
Sənədlərin məzmunlarının Zipf qanuna uyğun olaraq 
təhlilinin nəticələrinə əsasən demək olar ki, əgər sənəddə hər 
hansı söz böyük rastgəlinmə tezliyinə malikdirsə, lakin ter-
min deyilsə, onda bu söz massivin digər bir çox sənədlərində 
də böyük tezliklə rast gəlinməlidir. Məhz bu xassə sənədlər 
üçün vacib terminlərin seçilməsi prosesində istifadə oluna 
bilər. Ona görə də ikinci mərhələdə informasiya massivinin 
bütün sənədləri təhlil olunur və terminlərin massivin digər 
sənədlərində rastgəlinmə xarakteristikaları nəzərə alınmaqla 
onların həmin sənəd üçün çəki əmsalı müəyyən edilir. 
Tutaq ki, 
d
j
n
 – 
j
t
 
termininin rast gəlindiyi sənədlərin 
sayıdır. ilə 
d
j
n
arasındakı asılılığı təhlil etmək yolu ilə 
j
 
termininin verilmiş sənəd üçün hansı dərəcədə əhəmiyyətli 
olduğunu müəyyən etmək olar. Burada  
d
j
n
 
kəmiyyətini 
terminlərin sənəd tezliyi adlandırırlar. 
Qeyd olunmalıdır ki, 
d
j
n
 kəmiyyətinin qiyməti nə qədər 
kiçik olarsa, terminin sənəddəki çəkisi bir o qədər böyük 
olar. 
d
j
n
n
log
 kəmiyyəti 
j
 termininin  sənədləri diskrimi-
nasiya edib-etməməsi amilini özündə    əks etdirən yaxşı 
indeksator rolunu oynayır, yəni bu terminin əhəmiyyət 
kəsb etdiyi sənədləri onun rast gəlinmədiyi digər sənəd-
lərdən fərqləndirməyə imkan verir.  


169 
Bu kəmiyyət əks sənəd tezliyi adlanır və aşağıdakı kimi 
işarə olunur: 
d
j
d
j
n
n
f
log

.
(6.3)
Terminin sənəddəki tezliyi və əks sənəd tezliyi kəmiy-
yətlərini tezlik üzrə vahid indeksləşdirmə modeli çərçivə-
sində birləşdirmək olar: 
d
j
ij
ij
f
f
w


. (6.4)
(6.2) və (6.3) ifadələrini (6.4) düsturunda yerinə qoysaq, 
informasiya fəzasının bütün digər sənədlərinin xarak-
teristikalarını  nəzərə almaqla 
j
 termininin 
i
d
 sənədindəki 
ij
w
 
çəki əmsalının hesablanması üçün düsturu almış olarıq: 
d
j
w
i
t
ij
ij
n
n
m
m
w
log


.
(6.5)
(6.5) düsturundan görünür ki, 
j
 termininin 
i
d
 sənədin-
də rast gəlinmə tezliyi nə qədər böyük, eləcə də bu termi-
nin rast gəlindiyi sənədlərin sayı nə qədər az olarsa, onda 
j
 termini 
i
d
 sənədində bir o qədər böyük çəkiyə malik 
olar. Başqa sözlə, əgər 
i
d
 sənədi 
j
 termininin cəmləşdiyi 
sənəd olarsa, onda 
j
 termini bu sənəd üçün əhəmiyyət 
kəsb edən termin rolunu oynayar. 
Qeyd olunmalıdır ki, terminlərin sənədlərə daxilolma 
tezlikləri  əsasında indeksləşdirmə üsulu, əsasən, axtarış 
prosesinin bir xarakteristikasını – axtarışın dolğunluğunu 
yüksək səviyyədə  təmin etməyə imkan verir. Lakin mas-
sivin ayrı-ayrı  sənədlərində terminlərin cəmlənməsi amili 
eyni zamanda axtarışın yüksək dəqiqliyinin əldə olunması 
üçün də istifadə oluna bilər.  


170 

Yüklə 1,74 Mb.

Dostları ilə paylaş:
1   ...   102   103   104   105   106   107   108   109   ...   177




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin