234
- indeksləşdirilən sənədlərdə müəlliflər tərəfindən mə-
nası eyni (identik) olan anlayışların ifadəsi (təsviri)
üçün müxtəlif terminlərdən istifadə oluna bilər.
Məsələn, ingilis dilli mənbələrdə "informasiya axta-
rışı" termini bəzən "information retrieval", bəzən isə
"information search" formalarında istifadə edilir;
- indeksləşdirilən sənədlərdə müvafiq
sahədə geniş is-
tifadə olunmayan və ya tematik rubrikatora daxil ol-
mayan termin əhəmiyyətli açar söz kimi seçilə bilər,
lakin bu terminin sinonimləri olan digər terminlər
həmin sənəd üçün daha əhəmiyyətli ola bilər;
- bəzi terminlər tematika üzrə kifayət qədər yaxın olan
başqa terminlərə assosiasiya yarada bilər;
- indeksləşdirilən sənədlərdə terminlər əvəzinə onların
ingilis, latın və ya digər dillərdə ekvivalentləri
istifa-
də oluna bilər;
- eyni tematika üzrə ayrı-ayrı sənədlərin dilləri müxtə-
lif ola bilər.
Yuxarıda sadalanan amilləri nəzərə almadan axtarışın
nəticəsinin bilavasitə asılı olduğu indeksləşdirmə prosesi-
nin arzu olunan səviyyədə keyfiyyətlə aparılmasını təmin
etmək mümkün deyil. Burada sinonimlərdən və assosiativ
sözlərdən, habelə onların başqa dillərə tərcümələrindən
ibarət lüğətlərin yaradılması və istifadəsi vəziyyətdən çıxış
yolu ola bilər.
Bundan əlavə, axtarış sistemlərinin istehsalçıları tərəfin-
dən indeksləşdirmənin keyfiyyətini yaxşılaşdırmaq və əhə-
miyyətsiz sözlərin indeks qismində qəbul olunmasının qarşı-
sını almaq məqsədilə qadağan olunmuş ("stop-words"),
ümumi təyinatlı, köməkçi və xidməti sözlərdən (bağlayıcılar,
əvəzliklər, fellər, bəzi dillərdə sözönü şəkilçilər və s.) ibarət
235
lüğətlər istifadə olunur. Eyni zamanda indeksləşdirmə pro-
sesində leksik vahidlərin normallaşdırılması həyata keçirilir.
Lüğətlərin və indekslər bazalarının
süni surətdə şişirdil-
məməsi üçün sənədlərin axtarış obrazlarına daxil edilən
terminlərə çəki əmsalları mənimsədilir. Bu əmsallar hər
bir terminin verilən sənəd üçün əhəmiyyətlilik dərəcəsini
müəyyən edir.
Çəki əmsalları [0,1] intervalında qiymət alır. Əgər əmsal
0 qiyməti alırsa, bu o deməkdir ki, termin sənəddə rast gəlin-
məmişdir, yəni termin sənəd üçün heç bir yaxınlıq (rele-
vantlıq) münasibətinə malik deyildir. Əmsalın qiymətinin 1
olması isə terminin sənədin məzmununa tam (100%)
uyğun
gəldiyini göstərir.
Beləliklə, daha əhəmiyyətli terminlər, məsələn, 0.5-dən
artıq çəkiyə malik olan terminlər, yəni çəki əmsalı [0.5;1]
intervalında olan terminlər sistemin indekslər bazasına da-
xil edilir.
Hazırda internet şəbəkəsində Google, Baidu, Bing,
Yahoo, Excite, AltaVista, Lycos, Stars, Infoseek, Yandex,
Rambler, Aport və s. kimi çoxlu
sayda məşhur informasi-
ya-axtarış sistemləri fəaliyyət göstərir. Bu sistemlərə qo-
şulan istifadəçilərə bilavasitə və ya dolayısı ilə internetin
müxtəlif saytlarına giriş imkanı verilir. Onların köməyi ilə
istifadəçilər öz sorğularını formalaşdırır, axtarışı həyata
keçirir və tapılan sənədlərin, eləcə də web-səhifələrin
URL ünvanlarını əldə edirlər.
Qeyd olunan axtarış sistemlərinin əksəriyyəti istifadəçi-
lərə idman, kino, musiqi
sahəsində məlumatlardan, kom-
püter oyunlarından, eləcə də elmi məqalələrdən, kitablar-
dan, layihələrdən və s. kimi ehtiyatlardan ibarət olan müx-
təlif sənədləri, web-səhifələri, faylları özündə saxlayan te-
236
matik kataloqlar təqdim edir. Avtomatik indeksləri reallaş-
dıran digər sistemlər isə açar sözlərə (terminlərə) əsasən
dünyanın ayrı-ayrı ölkələrində yerləşən
saytlardan müxtə-
lif məzmunlu sənədlərin axtarışını həyata keçirir. Bu sis-
temlər təqdim olunan xidmətlərin növlərinə, əhatə etdiklə-
ri mövzulara və saytlara, habelə indeksləşdirmə və kata-
loqlaşdırma alqoritmlərinə görə bir-birindən fərqlənirlər.
Dostları ilə paylaş: