O’zbekiston respublikasi axborot texnologiyalari


Hujjatning tarkibiy qismini tanlash



Yüklə 114,89 Kb.
səhifə5/7
tarix13.12.2023
ölçüsü114,89 Kb.
#175373
1   2   3   4   5   6   7
1-mustaqil ish XS

Hujjatning tarkibiy qismini tanlash


Keyingi bosqichda hujjatning strukturaviy birligi (hujjat birligi) aniqlanadi indekslash uchun. Hozirgacha biz hujjatlarni taqdim etgan deb taxmin qildik indekslash uchun mo'ljallangan qattiq birliklar. Misol uchun, biz mumkin katalogdagi har bir faylni hujjat sifatida ko'rib chiqamiz.
Biroq, ko'p hollarda siz boshqa narsalarni qilishingiz kerak bo'lishi mumkin. Misol uchun, Unix tizimida (mbox formati) elektron xabarlar ketma-ketligi (elektron pochta katalogi) bir xil faylda saqlanadi, lekin siz alohida hujjatlar bilan bo'lgani kabi, elektron xabarlar bilan ishlashni xohlashingiz mumkin. Ko'pgina elektron xabarlar biriktirilgan fayllarni o'z ichiga oladi va siz xabarni va har bir biriktirilgan faylni alohida hujjatlar bilan hisoblashingiz mumkin. Agar arxiv fayli elektron pochtaga ulangan bo'lsa, uni ochishingiz va undagi har bir faylni alohida-alohida ko'rib chiqishingiz mumkin. Siz qarama-qarshi olib kelishingiz mumkin misollar. Ba'zi veb- ilovalar (latex2html kabi) bitta hujjat bilan ishlaydi (masalan, Powerpoint fayli yoki LATEX hujjati) va ularni alohida fayllarda saqlangan har bir Slayd yoki kichik bo'lim uchun alohida HTML-sahifalarga bo'linadi. Bunday hollarda ko'plab fayllarni birlashtirish maqsadga
muvofiqdir bitta hujjatda juda katta hujjatlar uchun batafsil indekslash muammosi mavjud (indexing granularity).

Atamalarning leksikonini aniqlash


2.2.1. Matnni leksemalarga ajratish
Ko'pgina tillarda va muayyan mavzu sohalarida odatiy bo'lmagan narsalar mavjud C++ va C# dasturlash tillari, samolyot nomlari, masalan, B-52 yoki teleko'rsatuv kabi atamalar sifatida tan olinishi kerak bo'lgan maxsus belgilar M * A * S * H. bu so'zlar madaniy kontekstga kiritilgan, shuning uchun matnlarda topish mumkin M*A*S*H-style shifoxonalari ifodalari 5 kompyuter texnologiyasi yangi turlarini yaratdi bir belgi sifatida tan olinishi kerak bo'lgan belgilar ketma- ketligi, xususan, elektron pochta manzili (jblack@mail.yahoo.com), veb-manzillar (URL) (http://stuff.big.com/new/specials.html (142.32.48.231), raqamli ip-manzillar (1z9999w99845399981) va boshqalar. Ularning mavjudligi sezilarli darajada Leksikon hajmini oshiradi, chunki pul miqdori, raqamlari va veb-manzillar kabi ma'lumoti indeksatsiya rad etilishi mumkin. Biroq, qidiruv tizimlarining foydasi sezilarli darajada kamayadi. Misol uchun, odamlar xato ma'lumotlar bazasida muammo yuzaga kelgan dasturning qator raqamini qidirishlari mumkin. Tarix va matn kabi matn birliklari aniq semantik turga ega bo'lgan elektron manzillar ko'pincha alohida indekslanadi hujjatning metadata sifatida. Ingliz tilida chiziqlarning joylashishi (giphenatsiya) turli maqsadlar uchun ishlatiladi: unli harflarni so'zlar bilan ajratish (co- education), ismlarni nomlar bilan birlashtirish (Hewlett-Packard), shuningdek so'zlarni guruhlash uchun (The hold-himback-and-drag-him-Ryder maneuver). Birinchi misolni bitta leksem deb hisoblash oson (aslida, bu so'z ko'pincha coeducation deb yoziladi), ikkinchisi bir necha so'z bilan bo'linishi kerak va ikkinchi misol aniq emas. Shunday qilib, avtomatik chiziqcha ishlov berish qiyin bo'lishi mumkin: mumkin yoki uni tasniflash vazifasi sifatida ko'rib chiqing yoki ba'zi bir evristik qoidalarni qo'llang, masalan, faqat qisqa prefikslarga ruxsat bering.

Yüklə 114,89 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin