O’zbekiston respublikasi axborot texnologiyalari


Atamalar lug’ati va hodisalar ruyhati



Yüklə 114,89 Kb.
səhifə4/7
tarix13.12.2023
ölçüsü114,89 Kb.
#175373
1   2   3   4   5   6   7
1-mustaqil ish XS

Atamalar lug’ati va hodisalar ruyhati.


Invertlangan indeksni qurishning asosiy bosqichlarini eslaymiz.

    1. Hujjatlar to'planadi va indeksatsiya qilinadi.

    2. Matnni leksemlarga aylantiriladi.

    3. Leksemalarni dastlabki lingvistik qayta ishlashni amalga oshiriladi.

    4. Har bir muddat uchun hujjatlarni indekslanadi.

Hujjatda belgilar ketma-ketligini tanlash


Indekslash jarayoni uchun kirish ma'lumoti bo'lgan raqamli hujjatlar odatda faylda yoki veb- serverda baytlar to'plami hisoblanadi. Qayta ishlashning birinchi bosqichida bu bayt ketma- ketligi chiziqli belgilar ketma-ketligiga aylantiriladi. Kodlash tizimida yozilgan ingliz tilidagi matn uchun ASCII jadvalidan foydalangan holda. Biroq, ko'pincha vazifalar juda murakkab. Belgilar ketma - ketligi UNICODE UTF-8 kabi bir nechta yoki ko'p baytli kodlashlardan birida, shuningdek, milliy standartda kodlangan bo'lishi mumkin yoki yetkazib beruvchiga bog'liq standartda. Avval siz to'g'ri kodlash turini aniqlashingiz kerak. Ushbu muammoni tasniflash vazifasi sifatida talqin qilish mumkin mashinani o'rganish lekin amalda u tez-tez evristik usullaridan, foydalanuvchi tanlash usullaridan yoki hujjat haqida mavjud metadata yordamida hal etiladi. Keyin bayt kodlash ketma-ketligini aniqlash ketma-ketlikda aylanadi belgilar.
Kodlashni tanlash kerak, chunki bu hujjat yozilgan til haqida ba'zi fikrlarni beradi. Ehtimol, belgilar ikkilik kodda tasvirdan dekodlanishi kerak, masalan Microsoft Word so'z protsessorining doc fayli va / yoki zipfayllar kabi arxiv fayllari. Shuning uchun, avval hujjat formatini aniqlab, keyin tegishli dekoderni tanlashingiz kerak. Hatto oddiy matnli hujjatlar uchun qo'shimcha kod hal qilish kerak bo'lishi mumkin. XML hujjatlarida ba'zi belgilari bunday & amp;, maxsus hal qilinishi kerak, ifoda uchun shunday & to'liq mos belgi & emas, balki boshqa hech narsa.
Xulosa qilish mumkinki matn hujjatining bir qismi qayta ishlanmagan boshqa materiallardan ajratilishi kerak bo'lishi mumkin.

Yüklə 114,89 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin