Microsoft Word Qasimov-ias docx


matik indeksləşdirmə üsulları



Yüklə 1,74 Mb.
Pdf görüntüsü
səhifə135/177
tarix01.01.2022
ölçüsü1,74 Mb.
#50803
növüDərs
1   ...   131   132   133   134   135   136   137   138   ...   177
N 406

matik indeksləşdirmə üsulları  adlanırlar.  
Bu növ indeksləşdirmə üsullarını reallaşdıran axtarış sis-
temləri mütəxəssislərin və ekspertlərin iştirakı və müdaxiləsi  
olmadan işləyirlər. Yuxarıda qeyd olunduğu kimi, bu sistem-
lərin əsas komponentlərindən biri olan axtarış robotları inter-
net şəbəkəsinin saytlarını "gəzir", bu saytlarda olan informa-
siya ehtiyatları haqqında məlumatları toplayır və onları xü-
susi formada öz bazalarına daxil edirlər. Bu halda informa-
siya ehtiyatlarının tematik bölgüsü aparılmır və informasiya 
axtarışı yalnız açar sözlərə görə həyata keçirilir. 
İndeksləşdirmə zamanı saytlarda olan web-səhifələrin 
hansının indeksləşdiriləcəyini axtarış robotları müəyyən 
edirlər. Lakin web-səhifələrin sahiblərinin arzusunu nəzə-
rə almaq məqsədlə xüsusi standart – robotlar üçün istisna-
etmə standartı istifadə olunur. Robotlar üçün istisnaetmə 
standartının mahiyyəti aşağıdakından ibarətdir: web-sayt-
ların administratorları öz serverlərində "robot.txt" faylı ya-
radır və bu faylda saytın web-səhifələrinin indeksləşdiril-
məsinə icazənin verilməsini və ya müxtəlif məhdudiyyət-
lərin qoyulmasını göstərirlər. Başqa sözlə, bu faylda "kə-
nar" robotlar tərəfindən saytın indeksləşdirilməsi siyasəti 
təsvir olunur. 
Avtomatik indeksləşdirmə zamanı  əlavə  çətinlik yara-
dan aspektlər, yəni zəif cəhətlər aşağıdakılardan ibarətdir: 


 
 
234 
 
-  indeksləşdirilən sənədlərdə müəlliflər tərəfindən mə-
nası eyni (identik) olan anlayışların ifadəsi (təsviri) 
üçün müxtəlif terminlərdən istifadə oluna bilər. 
Məsələn, ingilis dilli mənbələrdə "informasiya axta-
rışı" termini bəzən "information retrieval", bəzən isə 
"information search" formalarında istifadə edilir;  
-  indeksləşdirilən sənədlərdə müvafiq sahədə geniş is-
tifadə olunmayan və ya tematik rubrikatora daxil ol-
mayan termin əhəmiyyətli açar söz kimi seçilə bilər, 
lakin bu terminin sinonimləri olan digər terminlər 
həmin sənəd üçün daha əhəmiyyətli ola bilər; 
-  bəzi terminlər tematika üzrə kifayət qədər yaxın olan 
başqa terminlərə assosiasiya yarada bilər; 
-  indeksləşdirilən sənədlərdə terminlər əvəzinə onların 
ingilis, latın və ya digər dillərdə ekvivalentləri istifa-
də oluna bilər; 
-  eyni tematika üzrə ayrı-ayrı sənədlərin dilləri müxtə-
lif ola bilər. 
Yuxarıda sadalanan amilləri nəzərə almadan axtarışın 
nəticəsinin bilavasitə asılı olduğu indeksləşdirmə prosesi-
nin arzu olunan səviyyədə keyfiyyətlə aparılmasını  təmin 
etmək mümkün deyil. Burada sinonimlərdən və assosiativ 
sözlərdən, habelə onların başqa dillərə  tərcümələrindən 
ibarət lüğətlərin yaradılması və istifadəsi vəziyyətdən çıxış 
yolu ola bilər.  
Bundan  əlavə, axtarış sistemlərinin istehsalçıları  tərəfin-
dən indeksləşdirmənin keyfiyyətini yaxşılaşdırmaq və  əhə-
miyyətsiz sözlərin indeks qismində qəbul olunmasının qarşı-
sını almaq məqsədilə qadağan olunmuş ("stop-words"), 
ümumi təyinatlı, köməkçi və xidməti sözlərdən (bağlayıcılar, 
əvəzliklər, fellər, bəzi dillərdə sözönü şəkilçilər və s.) ibarət 


235 
lüğətlər istifadə olunur. Eyni zamanda indeksləşdirmə pro-
sesində leksik vahidlərin normallaşdırılması həyata keçirilir.  
Lüğətlərin və indekslər bazalarının süni surətdə şişirdil-
məməsi üçün sənədlərin axtarış obrazlarına daxil edilən 
terminlərə  çəki  əmsalları  mənimsədilir. Bu əmsallar hər 
bir terminin verilən sənəd üçün əhəmiyyətlilik dərəcəsini 
müəyyən edir.  
Çəki əmsalları [0,1] intervalında qiymət alır. Əgər əmsal 
0 qiyməti alırsa, bu o deməkdir ki, termin sənəddə rast gəlin-
məmişdir, yəni termin sənəd üçün heç bir yaxınlıq (rele-
vantlıq) münasibətinə malik deyildir. Əmsalın qiymətinin 1 
olması isə terminin sənədin məzmununa tam (100%) uyğun 
gəldiyini göstərir. 
Beləliklə, daha əhəmiyyətli terminlər, məsələn, 0.5-dən 
artıq çəkiyə malik olan terminlər, yəni çəki əmsalı [0.5;1] 
intervalında olan terminlər sistemin indekslər bazasına da-
xil edilir. 
Hazırda internet şəbəkəsində Google, Baidu, Bing, 
Yahoo, Excite, AltaVista, Lycos, Stars, Infoseek, Yandex, 
Rambler, Aport və s. kimi çoxlu sayda məşhur informasi-
ya-axtarış sistemləri fəaliyyət göstərir. Bu sistemlərə qo-
şulan istifadəçilərə bilavasitə  və ya dolayısı ilə internetin 
müxtəlif saytlarına giriş imkanı verilir. Onların köməyi ilə 
istifadəçilər öz sorğularını formalaşdırır, axtarışı  həyata 
keçirir və tapılan sənədlərin, eləcə  də web-səhifələrin 
URL ünvanlarını əldə edirlər.   
Qeyd olunan axtarış sistemlərinin əksəriyyəti istifadəçi-
lərə idman, kino, musiqi sahəsində  məlumatlardan, kom-
püter oyunlarından, eləcə  də elmi məqalələrdən, kitablar-
dan, layihələrdən və s. kimi ehtiyatlardan ibarət olan müx-
təlif sənədləri, web-səhifələri, faylları özündə saxlayan te-


236 
matik kataloqlar təqdim edir. Avtomatik indeksləri reallaş-
dıran digər sistemlər isə açar sözlərə (terminlərə)  əsasən 
dünyanın ayrı-ayrı ölkələrində yerləşən saytlardan müxtə-
lif məzmunlu sənədlərin axtarışını  həyata keçirir. Bu sis-
temlər təqdim olunan xidmətlərin növlərinə, əhatə etdiklə-
ri mövzulara və saytlara, habelə indeksləşdirmə  və kata-
loqlaşdırma alqoritmlərinə görə bir-birindən fərqlənirlər. 

Yüklə 1,74 Mb.

Dostları ilə paylaş:
1   ...   131   132   133   134   135   136   137   138   ...   177




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin