15-MA’RUZA Kompyuterda matnlarni qayta ishlash tizimlari
91
16-MA’RUZA Qidiruv va ekspert tizimi haqida tushuncha
100
17-18-MA’RUZA Korpus lingvistikasi
111
AMALIY MASHG'ULOTLAR
115
Mustaqil ta’limni tashkil etishning shakli va mazmuni
153
GLOSSARIY
156
ILOVALAR
161
FAN DASTURI
161
ISHCHI FAN DASTURI
168
TARQATMA MATERIALLAR
180
TESTLAR
184
BAHOLASH
196
1-MA’RUZA
KOMPYUTER LINGVISTIKASI FANIGA KIRISH
Reja: 1. “Kompyuter lingvistikasi” fanining mundarijasi, maqsadi, vazifasi.
2. Tilning ijtimoiy va informativ funksiyasi.
3. “Kompyuter lingvistikasi” fanining asosiy masalalari.
Tayanch tushunchalar: tilshunoslik va adabiyotshunoslik sohalarida kompyuterdan unumli foydalanish, tillarga o‘qitish, bilimlarini baholash, matnlarni tahrir qilish, bir tildan ikkinchi tilga tarjima qilish, kompyuter vositasida hal qilish yo‘llarini o‘rganish, matematik mantiq asoslari, tabiiy tillarning matematik modeli, o‘zbek tilining matematik modeli, o‘zbek tilining kompyuter uslubi.
Ma’lumki, tilshunoslik fani XIX (1816-yilda) asrda mustaqil fan sifatida shakllandi. Shundan boshlab u turli aspektlarda, yo‘nalishlarda rivojlanib kelmoqda. Keyingi yillarda barcha fanlardagi kabi tilshunoslikda ham ikki fanning «chorrahasida» (kesishuvida) yuzaga kelgan fanlar jadal rivojlanmoqda. Jumladan, ana shunday fanlar sirasiga sotsiolingvistika (sotsiologiya va tilshunoslik), psixolingvistika (psixologiya va tilshunoslik), etnolingvistika (etnografiya va lingvistika), neyrolingvistika (nevrologiya va tilshunoslik), matematik lingvistika va kompyuter lingvistikasi fanlarini kiritish mumkin. Bunday holni boshqa fanlar doirasida ham kuzatish mumkin: biokimyo, astrofizika, matematik fizika, matematik logika kabi. Buni fanlar tizimida bir necha fanlarning o‘zaro hamkorligi, integratsiyasi deb baholash lozim bo‘ladi.
Kompyuter lingvistikasi ikki rivojlanish bosqichini o‘z ichiga oladi:
1. Matematik lingvistika fanining asosiy maqsadi tabiiy tillarning matematik modelini ishlab chiqishdir. Matematik lingvistika hal qilishi lozim bo‘lgan vazifalar umumiy lingvistikaning formal va aksiomatik nazariyalarini va aniq tillarning matematik modelini ishlab chiqishdan iborat.
2. Kompyuter lingvistikasi fanining asosiy maqsadi lingvistik masalalarni yechishning kompyuter dasturlarini ishlab chiqish. Kompyuter lingvistikasining asosiy vazifalari esa tillarga o‘qitish bilimlarni tekshirish, matnlarni tahrirlash va mashina tarjimasi dasturlarini ishlab chiqishdan iboratdir.
Bu bilan matematik lingvistikani tili «sof munosabatlar sistemasi» ya’ni insondan abstrakt sistema sifatidagi tavsifi deb sharhlash mumkin bo‘ladi.
Klassik lingvistikada til inson bilan mutanosiblikda, juftlikda talqin qilinadi, ya’ni klassik lingvistika insonga zaruriy. Matematik lingvistika esa tavsiflash jarayonida shaxsning ishtirokiga o‘rin qoldirmaydi, u ko‘proq kompyuterga moslashtirilgandir.
Til gramatikasining matematik modeli matematik mantiqning aksiomatik nazariyasiga asoslanadi. Shuning uchun matematik lingvistika matematik mantiq asoslarini bayon qilishdan boshlanadi.
XX asrning 50-yillaridan boshlab tilshunoslikda «mashina tarjimasi», «mashina tilshunosligi»atamalari qo‘llanila boshlandi. Mazkur asrning buyuk kashfiyoti bo‘lgan kompyuter texnologiyalari tilshunoslikka ham kirib kelganining isboti edi. Mashina tarjimasi yoki avtomatik tarjima deyilganda, bir tildagi matnni ikkinchi bir tilga EHM (kompyuter) vositasida, tez vaqt ichida tarjima qilish nazarda tutiladi. Mashina tarjimasining asoschilari kibernetika va matematika sohasi vakillari bo‘lib, keyinchalik bu ishda tilshunoslar ham faol qatnasha boshlagan. Shu tariqa mashina tarjimasi g‘oyalari butun dunyoda nazariy va amaliy tilshunoslikning rivojlanishida katta ahamiyat kasb etdi. Bu yo‘nalish bilan parallel ravishda formal grammatika nazariyasi yuzaga kelib, til va uning alohida aspektlari modelini yaratishga e’tibor qaratildi. Tilning bu jihatlari matematik lingvistika fanida ishlab chiqildi, bu, o‘z navbatida, kompyuter lingvistikasi fanining yuzaga kelishi uchun poydevor bo‘ldi. Demak, shu asosda tilshunoslikning yangi yo‘nalishi - kompyuter lingvistikasi (1961) va tilshunoslikning bir qator nazariy va amaliy yo‘nalishlari vujudga keldi.
Matematik lingvistika fani esa XX asrning 50-yillarida (1952-yilda) tilshunoslikning alohida yo‘nalishi sifatida yuzaga keldi. Bu fanning shakllanishida Kopengagen struktural tilshunoslik maktabi (glossematika)ning asoschisi Lui Yelmslevning g‘oyalari o‘ziga xos «turtki» vazifasini o‘tagan. U hatto til hodisalarini matematik bayonda tushuntiradigan fanning nomini ham taklif etgan. Olimning fikricha, bu fan «Til algebrasi» («Lingvistik algebra»)deb atalishi lozim edi. Amerikalik tilshunos Noam Chomskiyning formal grammatika, transformatsion grammatika haqidagi qarashlari bevosita matematik lingvistikaning alohida yo‘nalish sifatida yuzaga kelishiga sabab bo‘lgan.2 Mana shunday qarashlar ta’sirida matematik lingvistika fani shakllandi. Matematik lingvistika - bu tabiiy tillarning matematik modellarini (bunday formallashgan til metatil deb ataladi) ishlab chiqish, xususan, sun’iy tillarni yaratish algoritmini tuzish bilan shug‘ullanuvchi fandir. Matematik lingvistika oldida turuvchi eng muhim masalalar quyidagilardir:
tilning aksiomatik nazariyasini ishlab chiqish;
formal grammatika yaratish;
tillarning matematik modellarini ishlab chiqish.
Har bir fanning o‘z maqsad va vazifalari bo‘ladi. Matematik lingvistika fanining asosiy maqsadi tabiiy tillarning matematik modelini ishlab chiqishdir. Ushbu maqsadga erishish uchun fan o‘z oldiga quyidagi vazifalarni qo‘yadi:
tabiiy va sun’iy tillarning formal modellari algoritmini ishlab chiqish;
lisoniy hodisalarni matematik parametrlarda baholash;
til hodisalarini matematik metodlar yordamida tahlil qilish (ehtimollar nazariyasi, statistika va kvantitativ metodlarni tatbiq etish).
Kompyuter lingvistikasi matematik lingvistikaning mantiqiy davomi bo‘lib, u amaliy tilshunoslikning eng muhim qismini tashkil etadi. Kompyuter lingvistikasi 1954-yil AQSHda Jorjtaun universitetida mashina tarjimasi bo‘yicha dunyoda o‘tkazilgan birinchi tajriba asnosida yo‘nalish sifatida shakllana boshladi, 1960-yilga kelib mustaqil fan sifatida shakllandi. Kompyuter lingvistikasi inglizcha «computational linguistics» so‘zining kalkasidir. XX asrning 80-yillariga qadar bu fan turlicha nomlar bilan atalgan: hisoblash lingvistikasi, matematik lingvistika, kvantitativ lingvistika, injener lingvistikasi kabi. Bu fanning asosiy maqsadi lingvistik masalalarni yechishning kompyuter dasturlarini ishlab chiqish, inson va mashina (kompyuter) muloqotini optimallashtirish5, tabiiy tilni qayta ishlash (Natural Language Processing)dir. NLP kompyuter lingvistikasida tabiiy tillarning kompyuter analizi va sintezini o‘z ichiga oladi. Buhda analiz tabiiy tilning kompyuterda morfologik, sintaktik va semantik tahlil yordamida tushunilishiga nisbatan ishlatiladi, sintez esa kompyuterda matnning grammatik shakllantirilishi va generatsiyasi (hosil qilinishi) demakdir. NLP bo‘yicha yaratilgan dasturiy ta’minotlar quyidagilar: AlchemyAPI, Expert System S.p.A., General Architecture for Text Engineering (GATE), Modular Audio Recognition Framework, Monty Lingua, Natural Language Toolkit (NLTK). Kompyuter lingvistikasining asosiy vazifalariga quyidagilar kiradi:
nutqni avtomatik tushunish tizimini ishlab chiqish (inglizcha ASR -Automatic Speech Recognition);
matndan faktlarni avtomatik ajratib olish (inglizcha fact extraction, text mining).
Kompyuter lingvistikasida qo‘llaniladigan va yaratiladigan lingvistik vositalarni shartli ravishda ikki qismga bo‘lish mumkin: deklarativ hamda protsedura qismlari. Deklarativ qismga til va nutq birliklari lug‘ati, grammatik ma’lumotnomalar, matnlar korpusi kabilarni kiritish mumkin. Protsedura qismi esa yuqoridagi lingvistik ta’minot bazasini boshqarish vositalarini (algoritmlar tuzish, dasturlar yaratish, kompyuter analizi va sintezi kabilar) o‘z ichiga oladi.
O‘zbek tili materiallari bo‘yicha kompyuter lingvistikasiga oid tadqiqot olib borgan olimlar sifatida H.Arziqulov, S.Rizayev, S.Muhamedov, A.Po‘latov, S.Muhamedova, N.Jo‘rayevalarni ko‘rsatish mumkin. Olimlar asosan statistik tahlil, algoritmlash, o‘zbek tilining aksiomatik nazariyasi, fe’llarning kompyuter analizi va sintezi kabi yo‘nalishlar bo‘yicha izlanishlar-ni amalga oshirganlar. O‘zbek tilshunosligidagi kompyuter lingvistikasining boshqa yo‘nalishlari esa o‘z tadqiqotchilarini kutmoqda. Shunga ko‘ra, bugungi kunda o‘zbek tilshunosligining kompyuter bilan bog‘liq holda hal etilishi lozim bo‘lgan quyidagi vazifalarni ta’kidlab ko‘rsatish mumkin:
O‘zbek tilining kompyuter uslubini yaratish.
Axborot matnlaridagi qoliplilik, qisqalik standartlarini ishlab chiqish.
Kompyuter izohli va tarjima lug‘atlarini yaratish.
O‘zbek tili va adabiyoti darsliklarining elektron versiyalarini ishlab chiqish.
Kompyuterda inglizcha-o‘zbekcha tarjima dasturlarini ishlab chiqish.
O‘zbek tili grammatikasining kompyuter modelini yaratish.
«Inglizcha-o‘zbekcha tarjimon» kompyuter dasturini ishlab chiqish.
O‘zbek tilidagi matnlarni tahrirlash dasturlarini yaratish.
O‘zbek tilidagi «Windows» operatsion tizimini yaratish.
Inglizcha-o‘zbekcha, o‘zbekcha-inglizcha kompyuter lug‘atlarini ishlab chiqish.
Fanlar hamisha o‘zaro uzviy bog‘liqlik va hamkorlikda ish ko‘radi, ular bir-birisiz yashay olmaydi. Jumladan, kompyuter lingvistikasi fani ham bundan mustasno emas. Kompyuter lingvistikasi mantiq, informatika, statistika, semiotika, kibernetika, ehtimollar nazariyasi kabi turli fan sohalari bilan o‘zaro aloqadorlikda ish ko‘radi.