matik indeksləşdirmə üsulları adlanırlar.
Bu növ indeksləşdirmə üsullarını reallaşdıran axtarış sis-
temləri mütəxəssislərin və ekspertlərin iştirakı və müdaxiləsi
olmadan işləyirlər. Yuxarıda qeyd olunduğu kimi, bu sistem-
lərin əsas komponentlərindən biri olan axtarış robotları inter-
net şəbəkəsinin saytlarını "gəzir", bu saytlarda olan informa-
siya ehtiyatları haqqında məlumatları toplayır və onları xü-
susi formada öz bazalarına daxil edirlər. Bu halda informa-
siya ehtiyatlarının tematik bölgüsü aparılmır və informasiya
axtarışı yalnız açar sözlərə görə həyata keçirilir.
İndeksləşdirmə zamanı saytlarda olan web-səhifələrin
hansının indeksləşdiriləcəyini axtarış robotları müəyyən
edirlər. Lakin web-səhifələrin sahiblərinin arzusunu nəzə-
rə almaq məqsədlə xüsusi standart – robotlar üçün istisna-
etmə standartı istifadə olunur. Robotlar üçün istisnaetmə
standartının mahiyyəti aşağıdakından ibarətdir: web-sayt-
ların administratorları öz serverlərində "robot.txt" faylı ya-
radır və bu faylda saytın web-səhifələrinin indeksləşdiril-
məsinə icazənin verilməsini və ya müxtəlif məhdudiyyət-
lərin qoyulmasını göstərirlər. Başqa sözlə, bu faylda "kə-
nar" robotlar tərəfindən saytın indeksləşdirilməsi siyasəti
təsvir olunur.
Avtomatik indeksləşdirmə zamanı əlavə çətinlik yara-
dan aspektlər, yəni zəif cəhətlər aşağıdakılardan ibarətdir:
234
- indeksləşdirilən sənədlərdə müəlliflər tərəfindən mə-
nası eyni (identik) olan anlayışların ifadəsi (təsviri)
üçün müxtəlif terminlərdən istifadə oluna bilər.
Məsələn, ingilis dilli mənbələrdə "informasiya axta-
rışı" termini bəzən "information retrieval", bəzən isə
"information search" formalarında istifadə edilir;
- indeksləşdirilən sənədlərdə müvafiq sahədə geniş is-
tifadə olunmayan və ya tematik rubrikatora daxil ol-
mayan termin əhəmiyyətli açar söz kimi seçilə bilər,
lakin bu terminin sinonimləri olan digər terminlər
həmin sənəd üçün daha əhəmiyyətli ola bilər;
- bəzi terminlər tematika üzrə kifayət qədər yaxın olan
başqa terminlərə assosiasiya yarada bilər;
- indeksləşdirilən sənədlərdə terminlər əvəzinə onların
ingilis, latın və ya digər dillərdə ekvivalentləri istifa-
də oluna bilər;
- eyni tematika üzrə ayrı-ayrı sənədlərin dilləri müxtə-
lif ola bilər.
Yuxarıda sadalanan amilləri nəzərə almadan axtarışın
nəticəsinin bilavasitə asılı olduğu indeksləşdirmə prosesi-
nin arzu olunan səviyyədə keyfiyyətlə aparılmasını təmin
etmək mümkün deyil. Burada sinonimlərdən və assosiativ
sözlərdən, habelə onların başqa dillərə tərcümələrindən
ibarət lüğətlərin yaradılması və istifadəsi vəziyyətdən çıxış
yolu ola bilər.
Bundan əlavə, axtarış sistemlərinin istehsalçıları tərəfin-
dən indeksləşdirmənin keyfiyyətini yaxşılaşdırmaq və əhə-
miyyətsiz sözlərin indeks qismində qəbul olunmasının qarşı-
sını almaq məqsədilə qadağan olunmuş ("stop-words"),
ümumi təyinatlı, köməkçi və xidməti sözlərdən (bağlayıcılar,
əvəzliklər, fellər, bəzi dillərdə sözönü şəkilçilər və s.) ibarət
235
lüğətlər istifadə olunur. Eyni zamanda indeksləşdirmə pro-
sesində leksik vahidlərin normallaşdırılması həyata keçirilir.
Lüğətlərin və indekslər bazalarının süni surətdə şişirdil-
məməsi üçün sənədlərin axtarış obrazlarına daxil edilən
terminlərə çəki əmsalları mənimsədilir. Bu əmsallar hər
bir terminin verilən sənəd üçün əhəmiyyətlilik dərəcəsini
müəyyən edir.
Çəki əmsalları [0,1] intervalında qiymət alır. Əgər əmsal
0 qiyməti alırsa, bu o deməkdir ki, termin sənəddə rast gəlin-
məmişdir, yəni termin sənəd üçün heç bir yaxınlıq (rele-
vantlıq) münasibətinə malik deyildir. Əmsalın qiymətinin 1
olması isə terminin sənədin məzmununa tam (100%) uyğun
gəldiyini göstərir.
Beləliklə, daha əhəmiyyətli terminlər, məsələn, 0.5-dən
artıq çəkiyə malik olan terminlər, yəni çəki əmsalı [0.5;1]
intervalında olan terminlər sistemin indekslər bazasına da-
xil edilir.
Hazırda internet şəbəkəsində Google, Baidu, Bing,
Yahoo, Excite, AltaVista, Lycos, Stars, Infoseek, Yandex,
Rambler, Aport və s. kimi çoxlu sayda məşhur informasi-
ya-axtarış sistemləri fəaliyyət göstərir. Bu sistemlərə qo-
şulan istifadəçilərə bilavasitə və ya dolayısı ilə internetin
müxtəlif saytlarına giriş imkanı verilir. Onların köməyi ilə
istifadəçilər öz sorğularını formalaşdırır, axtarışı həyata
keçirir və tapılan sənədlərin, eləcə də web-səhifələrin
URL ünvanlarını əldə edirlər.
Qeyd olunan axtarış sistemlərinin əksəriyyəti istifadəçi-
lərə idman, kino, musiqi sahəsində məlumatlardan, kom-
püter oyunlarından, eləcə də elmi məqalələrdən, kitablar-
dan, layihələrdən və s. kimi ehtiyatlardan ibarət olan müx-
təlif sənədləri, web-səhifələri, faylları özündə saxlayan te-
236
matik kataloqlar təqdim edir. Avtomatik indeksləri reallaş-
dıran digər sistemlər isə açar sözlərə (terminlərə) əsasən
dünyanın ayrı-ayrı ölkələrində yerləşən saytlardan müxtə-
lif məzmunlu sənədlərin axtarışını həyata keçirir. Bu sis-
temlər təqdim olunan xidmətlərin növlərinə, əhatə etdiklə-
ri mövzulara və saytlara, habelə indeksləşdirmə və kata-
loqlaşdırma alqoritmlərinə görə bir-birindən fərqlənirlər.
Dostları ilə paylaş: |