Alisher Navoiy nomidagi Toshkent davlat o„zbek tili va adabiyoti universiteti “KOMPYUTER LINGVISTIKASI: MUAMMOLAR, YECHIM, ISTIQBOLLAR” Respublika I ilmiy-texnikaviy konferensiya
Vol. 1 №. 01 (2021) http://compling.navoiy-uni.uz/
96
ajratib ko'rsatish yoki ijtimoiy tarmoqlarni kuzatish) uning tili "kanonik" dan juda
farq qilishi mumkinligi va uni qo'llamasdan hal qilish mumkinligi ko‘zda tutulgan.
So'zlarni qayta ishlash usullarini qayta ko'rib chiqishni talab qiladigan
vazifalar orasida fikrlarni chiqarib olish, matnlarga rang berish, axborot
manbalarining asl mazmunini tahlil qilish (masalan, "taniqli blogger" fikri aslida
uning xonadoshlarini qiziqtirishi mumkin) noto'g'ri yoki ataylab buzilgan matnlarni
qayta ishlashi mumkin. Bu vazifalarning barchasini yani matnlarni qayta ishlashda
har doim kompyuter lingvistikasi metodlarisiz hal qilolimasligimizni eslatib
o‘tamiz. Barcha zamonaviy matnni qayta ishlashda tizim so'zlarni eng oddiy
qidirishdan boshlab mashina tarjimasi bilan tugallaydigan, bir necha bosqichlarni
ko'zdan kechiradigan va o'zgarmas tabiiy tilni tanlaydigan algoritmlari mavjud. (1-
rasm)
1-rasm. So'zlarni klassik ravishda bosqichma-bosqich qayta ishlash.
Tizim kirish joyida belgilar ketma-ketligini oladi va birinchi bosqichda
(leksik tahlil) u alohida so'zlar va jumlalarga ajratadi. Shu bilan birga, ba'zi belgilar
ketma-ketligi (masalan, rus tilidagi chiziqcha va nuqta) bir ma'noda talqin qilinishi
mumkin. Bundan tashqari, leksik tahlil bosqichida deobfuskatsiya vazifasi paydo
bo'ladi - ataylab buzilgan (xiralashgan) so'zlarni aniqlab va tuzatib ketadi. Bunday
buzilishlarning odatiy misoli bu so'zni almashtirishdir misol tariqasida ingliz
tilidagi «drugs» yani (giyohvand moddalar) so‘zini spam-jo'natmalarda "d.r.u.g.s"
yoki "d-r-u-g-s" ga almashtirib ko‘rsatilishidir.
Keyingi bosqichda alohida so'zlarni qayta ishlash amalga oshiriladi, bu
ko'pincha morfologik tahlilga to'g'ri keladi yani so'z (gramm) va asosiy so'z
shaklining xususiyatlarini aniqlaydi.
Morfologik tahlilni o'tkazishda ikkita yondashuv mavjud. Birinchisi (aniq