Nomlangan (ya’ni, muhim, tayanch) elementlarni tanish, masalan: odamlar ismi, tashkilot nomlari, geografik nomlar, vaqt va pul birliklari va h.k.
Anaformalar va o’zaklarning aniqlanishi: bitta va aynan shu ob’etga tegishli (daxldor) bog’liqliklarni aniqlash. Bunday bog’lanishlarning xos holatlari – olmoshli anaforalar.
Atamalarni (terminlarni) ajaratish: berilgan matn uchun kalit so’zlari va iboralarni topish.
Avto (referat tuzish): matndan semantik, hissiy, baholovchi malumotlarni ajratib olish. Bu generativ va deklarativ bo’ladi.
Bulev izlash tizimi funksiyalari
Ko'p odamlar egalik qiladigan semiz kitob - Shekspirning To'plam asarlaridir. Shekspirning qaysi so'zlarini "Brutus" va "Qaysar" VA Kalpurniya emasligini belgilashni xohlaysizmi. Buning bir usuli - boshidan boshlash va barcha matnlarni o'qish, unda har bir asar uchun Brutus va Sezar bor-yo'qligini e'tiborga olish va agar Kalpurniya bo'lsa, uni ko'rib chiqishdan chiqarib tashlash. Hujjatlarni olishning eng oddiy shakli bu kompyuter tomonidan hujjatlar orqali chiziqli skanerlashni amalga oshirishdir. Ushbu jarayon odatda GREP tomonidan amalga oshiriladigan Unix buyrug'i grep-dan keyin odatda matn orqali o'tish deb ataladi. O'chirish teksti juda samarali jarayonga aylanishi mumkin, ayniqsa zamonaviy kompyuterlarning tezligini hisobga olgan holda va ko'pincha odatiy ifodalarni qotirishga qarshi kurashish uchun foydali imkoniyatlarni beradi. Zamonaviy kompyuterlar yordamida kamtarona to'plamlardan oddiy so'rov o'tkazish uchun (Shekspirning To'plam asarlarining hajmi jami bir million so'zdan kam), sizga haqiqatan ham boshqa hech narsa kerak emas.
Ammo ko'p maqsadlar uchun sizga ko'proq kerak bo'ladi:
Toprocesslarged hujjat to'plamlari tezda. Onlayn ma'lumotlarning soni hech bo'lmaganda kompyuterlarning tezligi kabi tez o'sdi va endi biz milliarddan trilliongacha so'zlarni tashkil etadigan to'plamlarni qidirishni istaymiz.
Toallowmore - mavjud bo'lgan mos kelishuvlar. Forex misolida, rimliklarga NEAR vatandoshlari so'rovini grep bilan bajarish maqsadga muvofiq emas.
Saralangan tartibda qidirib topishga ruxsat berish: ko'p hollarda ma'lum so'zlarni o'z ichiga olgan ko'plab hujjatlar orasida ma'lumot zarurligiga eng yaxshi javob berishni xohlaysiz.
Matnlarni har bir so'rov uchun chiziqli ravishda skanerlashdan saqlanish usuli bu oldindan indeks hujjatlarini indekslashdir. Keling, Shekspirning To'plangan asarlari bilan yopishib olaylik va undan Boolean qidirish modeli asoslarini tanishtirish uchun foydalanamiz. Faraz qilaylik, har bir hujjat uchun - bu erda Shekspirning spektakli - tarkibida barcha so'zlar tarkibiga kiradimi yoki yo'qmi Shekspir (Shekspir qariyb 32000 xil so'z ishlatgan). Theresultisabinaryterm- documentiscidentINCIDENCE MATRIX matritsasi, 1.1-rasmda bo'lgani kabi. Shartlar - bu indekslangan birliklar (bundan keyin 2.2-bo'limda muhokama qilingan); ular odatda so'zlardir, va hozircha siz ularni so'zlar deb o'ylashingiz mumkin, ammo axborot qidirish adabiyoti odatda terminlar haqida gapiradi, masalan, I-9 yoki Gonkong, odatda, bir xil ma'noda o'ylangan so'zlar.
Keling, qanday ko'rinishga ega ekanligimizdan qat'iy nazar, unda paydo bo'lgan hujjatlarni ko'rsatadigan har bir hujjatni ko'rsatadigan ustunlar yoki ustunlar, har bir hujjat uchun avektor. 2
Brutus va Sezar VA Calpurnia emas, balki Brutus, Caesar and Calpurnia uchun vektorlarni olamiz. oxirgi, keyin esa VA:
110100 VA 110111 VA 101111 = 100100
natijalari Antoni va Kleopatra va Gamletga tegishli .
Mantiqiy qidiruv modeli amodel forformatsiyani qayta tiklash uchun mo'ljallangan, uBB OOLEAN RETRIEVAL MODEL har qanday so'rovni berishi mumkin, bu esa atamalarning mantiqiy ifodasi shaklida, ya'ni atamalar AND, OR yoki NOT operatorlari bilan birlashtirilgan. Model har bir hujjatni faqat so'zlar to'plami sifatida ko'rib chiqadi. Keling, bir vaqtning o'zida ba'zi bir terminologiya va yozuvlarni kiritish imkoniyatidan foydalanib, yanada aniqroq ssenariyni ko'rib chiqaylik. Deylik, bizda N = 1 million hujjat bor. Hujjatlar deganda bizda mavjud bo'lgan har qanday bo'linmalar nazarda tutiladiDOCUMENT qidirish tizimini qurishga qaror qildi. Ular shaxsiy eslatmalar yoki kitobning boblari bo'lishi mumkin (keyingi muhokamalar uchun 2.1.2- bo'limga qarang (20-bet)). Biz qidirishni amalga oshiradigan hujjatlar guruhini (hujjat) to'plami deb ataymiz. Ba'zan uni korpus (COLLECTION CORPUS matnlari tanasi) deb ham atashadi. Taxminan 1000 so'zdan iborat har bir hujjat (2-3 kitob sahifasi) haqida taxmin qiling.
Agar biz bo'shliqlar va tinish belgilarini o'zgartirishni taxmin qilsak, bu taxminan 6 Gb hajmdagi hujjatlar to'plamidir. Odatda, ushbu hujjatlarda taxminan M = 500,000 alohida atamalar bo'lishi mumkin. Biz tanlagan raqamlar haqida hech qanday maxsus narsa yo'q va ular kattaligi yoki undan kattaroqligi bilan farq qilishi mumkin, ammo ular biz hal qilishimiz kerak bo'lgan muammolarning o'lchamlari haqida bir oz ma'lumot beradi. Ushbu o'lchamdagi taxminlarni 5.1- bo'limda muhokama qilamiz (86-bet). Bizning maqsadimiz - vaqtincha qidirish vazifasini hal qilish uchun tizimni ishlab chiqish. Bu AD HOC RETRIEVAL eng standart IR vazifasi. Unda tizim foydalanuvchilarga o'zboshimchalik bilan ma'lumot berish zarurati uchun tegishli bo'lgan to'plamni ichidan hujjatlarni taqdim etishga qaratilgan bo'lib, ular tizimga bir martalik, foydalanuvchi tashabbusi bilan yuborilgan. Axborotga bo'lgan ehtiyoj - bu foydalanuvchi ko'proq bilmoqchi bo'lgan mavzudir va MALUMOTNING QARORI so'rovdan farqlanadi, bu foydalanuvchi kerakli ma'lumotni etkazish uchun com-QUERY qo'yuvchiga etkazadi. Hujjat, agar u foydalanuvchi shaxsiy ma'lumotlariga bo'lgan ehtiyojiga nisbatan RELEVANCE qiymatidagi ma'lumotlarni o'z ichiga olgan hujjat bo'lsa, ahamiyatlidir. Yuqoridagi misolimiz juda muhim edi, chunki ma'lumotga bo'lgan ehtiyoj ma'lum so'zlar nuqtai nazaridan aniqlangan, ammo odatda foydalanuvchi "quvurlar oqishi" kabi mavzularga qiziqish bildiradi va ahamiyatsiz hujjatlarga ega bo'lishidan qat'iy nazar, ushbu so'zlarni aniq ishlatgan yoki kontseptsiyani quvur uzilishi kabi boshqa so'zlar bilan ifoda etgan. . IQ tizimining samaradorligini baholash uchun (ya'ni, uning qidiruv natijalarining samarasi), foydalanuvchi odatda so'rov uchun tizimning qaytarilgan natijalari to'g'risida ikkita muhim statistikani bilishni istaydi:
500K × 1M matritsasi yarim trillion 0 ga va 1 ga ega - bu kompyuter xotirasida fi t gacha juda ko'p. Ammo hal qiluvchi kuzatuv shundan iboratki, matritsa o'ta siyrak, ya'ni nolga teng bo'lmagan yozuvlar kam. Har bir hujjat 1000 so'zdan iborat bo'lganligi sababli, matritsa bir milliard 1 dan oshmaydi, shuning uchun hujayralarning kamida 99,8% nolga teng. Faqatgina sodir bo'lgan narsalarni, ya'ni 1 pozitsiyani yozib olish juda yaxshi vakolatdir. Ushbu g'oya ma'lumot olishning birinchi asosiy kontseptsiyasi, teskari indeks uchun muhimdir. Ism aslida ortiqcha: indeks har doim ININEX-ni terminlardan ular paydo bo'lgan qismlarga qadar xaritalar. Shunga qaramay, teskari indeks, yoki bir necha marta teskari fi le, talablarga javob beradigan talabga javob beradi.3 Inverted indeksning asosiy g'oyasi 1.3-rasmda keltirilgan. Biz atamalar lug'atini saqlaymiz (ba'zida so'z boyligi yoki LUKSIONAL VOZIKA leksikasi deb ham yuritiladi; ushbu kitobda ma'lumotlar tuzilishi uchun lug'at va atamalar to'plami uchun
LEXICON so'zlashuvidan foydalanamiz). So'ngra har bir muddat uchun bizda bu atama qaysi hujjatlarda bo'lganligini yozadigan ro'yxat mavjud. Ro'yxatdagi har bir element - bu atamaning hujjatda paydo bo'lganligini (va keyinchalik, ko'pincha, hujjatdagi pozitsiyalarni) qayd etadigan - shartli deb nomlanadi. 4 keyin ro'yxat postingsPOSTING POSTINGS LIST ro'yxati (orinvertedlist), va barcha poststatsliststakentogetherarereferredto qilingan postlar deb nomlanadi. 1.3-rasmdagi lug'at alfavit bo'yicha tartiblangan va POSTINGS har bir postostlar ro'yxati hujjat identifikatori bo'yicha tartiblangan.