13-14-MA’RUZA KOMPYUTER LINGVISTIKASIDA METODLAR Reja: 1. Statistik tahlili metodi haqida.
2. Modellashtirish metodi haqida.
Tayanch so‘z va iboralar: kvantitativ metod, matematik parametr, statis- tika, indeks, tanlama, tanlamaning hajmi, absolut chastota, nisbiy chastota, lisoniy tip, flektiv tillar, agglutinativ tillar, chastotali lug'atlar, matnning statistik tahlili, Zif qonuni, matn atributsiyasi, anonim va psevdonim mat filar, idiostil, polisemantik so 'zlar, sinonimik qator, dominanta, to ‘plam, ling- vostatistika. Statistik tahlil metodi boshqa fanlar qatori tilshunoslik fani uchun ham muhim ahamiyatga ega. Bunda tilda mavjud hodisalar aniq matematik parametrlarda baholanadi, tekshiriladi. Statistika lotincha «status» so'zidan olingan bo'lib, hodisalarning holati, ahvolini bildiradi. «Status» so‘zidan «stato» - davlat, «statusta» - davlatni biluvchi, «statustica» - davlat to'g'risida muayyan bilim, ma’lumotlar yig‘indisi ma’nosini bildiruvchi so'zlar kelib chiqqan.16 Bundan 3500 yil oldin Qadimgi Misrda o‘tkazilgan aholi hisobi, Rossiyada Pyotr I davridagi «aholi taftishi», Angliyadagi «Dahshatli sud kitobi» kabilar dastlabki statistik ma’lumotlardir.
XVII asrda Angliyada yuzaga kelgan «siyosiy arifmetika» (U.Petti va Jon Grauntlar nomi bilan bog‘liq) fani statistikaning shakllanishiga asos bo'lgan. Statistika ijtimoiy hodisalarning miqdoriy tomonlarini ularning sifat tomonlari bilan uzviy aloqadorlikda o'rganuvchi fandir. Hodisalarning sifat tomonlarini maxsus fanlar o'rganadi. Xususan, tovushlar, so'zlar, gaplarni lingvistika, qofiya, ritm, vazn, she’r tuzilishini adabiyotshunoslik, organik hayotni biologiya, yer qatlamlari va boyliklarini geologiya kabi fanlar o'rganadi. Statistika esa ushbu hodisalarni miqdoriy parametrlar aso- sida o'rganadi. Bunda statistika hodisalarni turli omillar ta’siridagi
o'zgaruvchanlik xususiyatini - variatsiyasini e’tiborga oladi. Shu jihatdan statistik ma’lumotlar hodisalar rivojining dinamikasini aks ettira oladi. Lekin sliu o'rinda aytib o‘tish lozimki, statistikaga yagona mutlaq haqiqat deb yondashish, statistik ma’lumotlarga haddan tashqari ishonish ham to‘g‘ri emas. Ayrim yolg‘on faktik materiallarga asoslanib tayyorlangan statistik ma’lumotlar hodisalar haqida xato tushunchalar berishi mumkin. Shu ma’noda statistika yuzasidan shunday hazilomuz gap aytiladi: « Yolg ‘onning uch turi bor: a) yolg‘on; b) g'irt yo'lg'on; c) statistika».
Statistikaning til hodisalariga tatbiq etilishi natijasida lingvostatistika sohasi shakllandi, unda til birliklari, lisoniy hodisalar, matnlar statistik tah- lil etiladi. Matnning statistik tahlili - tilni ehtimollik belgilariga ko‘ra tahlil qilish, til hodisalarining statistik xarakteristikalari asosida baholash de- makdir. Til birligining gapda yoki matnda qo‘llanish chastotasi (sur’ati) ehtimollik deyiladi. Til hodisalari haqidagi haqiqatlar lingvostatistik tad- qiqotlar yordamida aniqlanadi. Masalan, o‘zbek tili uchun qaysi bo‘g‘in strukturasi tipik ekanligini, gap modcllaridan qaysi biri eng asosiy konst- ruksiya ekanligini, bosh kelishikdagi otlarning asosan qaysi gap bo‘lagi vazifasida kelishini, tanlangan matnda so‘z turkumlarining qay darajada ishlatilishini aniqlash uchun lingvostatistik tahlillarga ehtiyoj seziladi.
Til hodisalarini statistik metod asosida tahlil qilish uchun doim ma’lum bir matn yoki matnlar to'plami olinadi. Ular badiiy adabiyotdan, gazeta va jurnallardan, publitsistik maqolalardan, ilmiy asarlardan, dialektologlar- ningjonli nutqidan yozib olgan materiallaridan tanlanadi. Statistik xusu- siyati o‘rganilayotgan muayyan matnlar «tanlama» deyiladi. Tanlamaning hajmi tekshirilayotgan hodisalarning umumiy sonidir, uni «Н» bilan belgilash mumkin. Masalan, 100 ta so‘z; 37 ta bosh kelishik shaklidagi ot kabi. Aniqlanayotgan hodisani ko‘rsatadigan miqdor (masalan, ot oldida aniqlov- chi vazifasida keladigan takrorlangan otlar miqdori) absolut chastota hisoblanadi, uni «М» harfi bilan belgilash mumkin. 37 ta otdan 30 tasining aniqlovchi vazifasida kelishi absolut chastotadir. Absolut chastota (M)ning tanlama hajmi (H)ga nisbati (M/H)dan nisbiy chastota kelib chiqadi.48 Nis- biy chastota «Р» harfi bilan belgilanadi. Nisbiy chastota uch xil usul bilan aniqlanadi:
a) oddiy kasr hisobida: P = M/H
b) protsent asosida: P = МЧ100/Н
c) promil hisobida: Р = МЧ 1000/H
Matnning statistik tahlilida Zif qonunidan o‘rinli foydalaniladi. Katta
48 Усмонов С. Умумий тилшунослик. - Тошкент: У^итувчи, 1972. - Б.199.
50
A. Rahimov
hajmdagi matnlarda har bir so‘zning qanchalik tez takrorlanishini (chasto- tasini) va ularning takrorlanish tezligini hisoblashda Zif qonuni amal qiladi.49 Bunda so‘zning chastotasi (f), uning ro'yxatdagi holati qatori (r) deb belgilanadi. Zif qonuniga ko‘ra, matnda eng ko‘p ishlatilgan so‘z г = 1, undan pastroq chastotada kuzatilgan so‘z r = 2, undan keyingisi r = 3 tarzida belgilanadi. Bundan kelib chiqadiki, matndagi ixtiyoriy so‘z uchun (f) chas- totaga (r)ning ko'paytmasi natijasi o‘zgarmas miqdor- konstanta (C)ga teng bo‘ladi (r4f = C), bu yerda С matn hajmiga bog'liq. Masalan, amerikalik yozuvchi Mark Tvenning «Тош Soyerning sarguzashtlari» asari Zif qonuni asosida tahlil etilgan. Asarda jami 71 370 ta belgi mavjud bo‘lib, takror- lanmagan so‘z tiplari 8018 ta. Matnda ishlatilgan so‘zlarning o‘rtacha takrorlanish chastotasi 8,9 dir, ya’ni matndagi so‘zlar taqriban 9 marta takror- lanadi. Lekin bunda eng katta muammo shuki, so‘z tiplarining barchasi matn ichida qo'llanish darajasi bir xil emas. Ayrim so‘zlar 700 marta tak- rorlanadi, bunday so'zlar romanning 1% qismini tashkil etadi. Yana shunday so'zlar ham borki, ular bir marta takrorlanadi. Bunday so'zlar hapas legomena (yunoncha so‘z «faqat bir marta o‘qi», degan ma’noni anglatadi) deb ataladi, ular asarning qariyb yarmini tashkil etadi. Qariyb 90% so‘zlar 10 marta yoki undan kam, 10% ga yaqin so‘z tiplari 3 marta yoki undan kam miqdorda takrorlanadi.
Matnning statistik tahlili matn atributsiyasi muammosiga ham oydinlik kiritishda muhim tadqiqot usuli hisoblanadi. Ayniqsa, badiiy matnlarning statistik tahlili natijasida o'sha matn muallifi ham aniqlanmoqda. Bunda matnda tez-tez ishlatiluvchi til birliklari (otlar, sifatlar, kalit so'zlar, fe’llar, grammatik shakllar, jumla qurilishi, bir so‘z bilan aytganda, yozuvchining idiostilini - o‘ziga xos uslubini ko‘rsatuvchi vositalai) lingvostatistik tahlil yordamida aniqlanadi. Turli matnlardan olingan dalillarning qiyosiy tahlili bizga o'sha matnning mazmun-mundarijasini, matn tuzilgan davrni, da- lillarni argumentlash xarakterini va hatto mualliflikni aniqlashga imkon beradi. Badiiy asarlarning sujet qurilishiga, matn strukturasiga kvantitativ metodlarning tatbiq etilishi natijasida F.Dostoyevskiy, L.Tolstoy, M.Sholoxov kabi yozuvchilarning matnlari atributsiyasi amalga oshirilgan. Keyingi paytlarda anonim (muallifi noma’lum) va psevdonim (soxta muallifli) matnlarning aniqlanishi yuzasidan ham tadqiqotlar amalga oshirilmoqda.17 Bu aspekt kriminalistika sohasida muhim ahamiyat kasb etmoqda.
Amerikalik olim Jozef Grinberg kvantitativ metodni tilshunoslikka - morfologik tiplar nazariyasiga tatbiq etgan. Tadqiqot natijalarini «Quantitative approach to the morphological typology of languages» (1960) («Tillar morfologik tipologiyasiga kvantitativ yondashuv») nomli maqolasida umum- lashtirgan. Olim o‘zigacha amalga oshirilgan ishlar haqida shunday yoza- di: «Tillarning tipologik tasnifi mantiqiy-ratsional mezonlar asosida yuzaga kelgan. Tasnif namunalari nazariy jihatdan asoslangan, ammo lingvistik fakt bilan uzviyligi yaqqol ко ‘zga tashlanmaydi. Bu esa tasnifni amaliyotga
tatbiq etib tekshirishni taqozo etadi».5' Shu nuqtayi nazardan olim matematik aniqlikka erishish maqsadida til hodisalarini, mavjud lisoniy tiplarning uchrash darajasini miqdoriy parametrlar asosida qayta baholadi. J.Grinberg kvantitativ metodni 8 tilga (sanskrit, anglo-saks, yoqut, vyetnam, fors, ing- liz, suaxili, eskimos tillariga) tatbiq qilgan. Bunda olim o‘zi belgilagan for- mulalar asosida lisoniy tiplarning va tillarda kuzatiladigan tipologik belgilarning miqdoriy tavsifini, statistik ma’lumotlarni ilmiy jamoatchilikka havola etdi.
Masalan, sintetiklikning dunyo tillaridagi darajasini aniqlash uchun М/ W, agglutinatsiyani aniqlash uchun A/J, kompozitsiyani aniqlash uchun RI W, derivatsiyani aniqlash uchun D/W, prefiksatsiyani aniqlash uchun P/W, suffiksatsiyani aniqlash uchun S/W formulalaridan foydalandi. Bu yerda M
- ma’lum tipdagi chekli (100 so‘zdan iborat) matn ichida uchragan morflar soni, A - agglutinatsiya, R (root) - o‘zak, D (derivational) - yasovchi qism, P - prefiks, S - suffiks, W (Word) - matndagi so'zlar sonidir. Hisoblash natijalariga ko‘ra, vyetnam tili uchun - 1,06 (ya’ni 100 so‘zda 106 morf uchraydi), ingliz tili uchun - 1,68, sanskrit tili uchun - 2,59, eskimos tili uchun - 3,72 dir. Natijalardan kelib chiqib olim tillarni baholaydi: «2 dan past ko‘rsatkichga ega boigan tillar (vyetnam, ingliz, fors, xitoy, italyan, nemis tillari) analitik tillar, 2 dan 3 gacha miqdoriy ko'rsatkichga ega bo‘lgan tillar (rus, sanskrit, qadimgi yunon, lotin, eski slavyan, chex, polyak, yoqut, suaxili tillari) sintetik tillar, 3 dan yuqori ko'rsatkichga ega bo'lgan tillar (eskimos, ayrim kavkaz tillari, Amerika hindulari tillari) polisintetik tillar hisoblanadi». Rus olimi V.Z.Demyankovning fikricha, Grinberg tavsiya et- gan metod tilshunoslikdu mavjud ho‘lgan kartotekalash usulidan ishonchli- roq va aniqroqdir. (7-жадвал)
Chastotali lug‘atlar matnda so‘zlarning ishlatilish chastotasi (qay dara- jada ishlatilishi, tez-tez ishlatilishi)dan kelib chiqqan holda tayyorlanadi- gan so'zliklar hisoblanadi. Chastotali lug'atlar statistik leksikografiyaning rivoji natijasida yuzaga kelgan. Bunday lug'atlar, ayniqsa, til o‘qitish jara- yonida leksik minimumlarni aniqlashda muhim ahamiyatga ega. So'zlarning chastotasini aniqlash lingvostatistik tahlillar yordamida amalga oshiriladi. Chastotali lug‘atlar kompyuterning lingvistik informatsion bazasi hisoblanadi. Masalan, chastotali lug‘atdagi birinchi 10 va 50 eng ko‘p uchraydigan so‘z formalarining miqdori umumiy so‘z birliklariga nisbatan agglutinativ tillarda fiektiv tillarga qaraganda kamroq foizni tashkil etadi. Agglutinativ tillarda dastlabki 1000 so ‘z formasi umumiy so ‘z birliklarining 50 - 60 foizini
Model (lotincha «modelus» so'zidan olingan boiib, «nusxa», «anda- za», «o'lchov», «me’yor» ma’nolarini anglatadi) tabiiy fanlar yoki umu- man fanda shunday moddiy qurilma, grafik, sxema, umuraan, bilish vosita- si sifatida tushuniladiki, u muayyan original-obyekt haqidagi ma’lumotlar majmui tarzida yuzaga kelgan hosila-obyekt demakdir. Boshqacharoq tushuntirganda, model tabiiy obyektlarning imitatsiyasidir (o‘xshashi, taq- lidiy ko‘rinishi), u o‘zbek tilidagi qolip, andaza so‘zlariga mos keladi. U hodisalarning yuzaga kelishi uchun asos vazifasini o‘taydi, bunda aniq yoki mavhum obyektlar kichraytirilgan obyektlar, sxemalar, chizmalar, fizikaviy konstruksiyalarda tadqiq etiladi. Buni oddiy hayotiy misol bilan tushuntira- digan bo‘lsak, olmani xarakterlovchi belgilar, atributlar - uning dumaloq- ligi, mevaligi, shirinligi o'sha tushunchaning fikriy modeli hisoblanadi. Agar biz olmani loydan yoki sun’iy bir materialdan yasasak, bu uning moddiy modeli hisoblanadi. Yoki globus yerning modeli, o‘yinchoq mashina haqi- qiy mashinaning modeli sifatida baholanishi mumkin. Model quyidagi asoslarga ko‘ra bilishda muhim hisoblanadi:
- birinchidan, u o‘rganish obyektini soddalashtiradi;
- ikkinchidan, uni boshqa obyektlar ta’siridan ajratadi;
- uchinchidan, model obyektni ta’riflashni osonlashtiradi.
Model dastlab amaliy sohalarda ishlatilgan. Keyinchalik ilm-fanning ijtimoiy sohalariga ham kirib keldi. Bu matematika, kimyo fanlariga keng tatbiq qilingani yaqqol ko‘rinadi. «Model» tushunchasi fan va texnikada
turli ma’nolarda ishlatilgani bois modellashtirish turlarining yagona tasnifi mavjud emas. Tasnif modelning xarakteriga ko‘ra, modellashtirilayotgan obyektning tabiatiga ko'ra, modellashtirish tatbiq qilinayotgan soha yoki yo'nalishga qarab amalga oshirilishi mumkin. Masalan, modellashtirish- ning quyidagi turlarini ajratib ko‘rsatish mumkin: informatsion modellashtirish, lingvistik modellashtirish, kompyuterli modellashtirish, matematik modellashtirish, matematik-kartografik modellashtirish, molekulyar modellashtirish, mantiqiy modellashtirish, pedagogik modellashtirish, psixologik modellashtirish, statistik modellashtirish, struktur modellashtirish, fizik modellashtirish, iqtisodiy-matematik modellashtirish, imitatsion modellashtirish, evolutsion modellashtirish, kognitiv modellashtirish kabi.
Modellarni shartli ravishda quyidagicha tasniflash mumkin:
1. Tabiiy modellar - o‘rganilayotgan obyekt bilan bir turda bo‘ladi va undan faqat oMchamlari, jarayonlarining tezligi va ba’zi hollarda yasalgan materiali bilan farq qiladi.
2. Matematik modellar - prototipdan (asl nusxadan) jismoniy tuzilishi bilan farq qiladi, lekin prototip bilan bir xil matematik tasvirga ega boMadi.
3. Mantiqiy-matematik modellar - belgilardan iborat bo‘lib, abstrakt model hisoblanadi va tafakkur jarayonini o‘rganishda qo'llaniladi.
4. Kompyuterli modellar - matematik va mantiqiy modellashtirish metodlariga asoslanib kompyuterda algoritm va dasturlardan foydalanib yaratiladigan modellar.
Kompyuterli modellashtirish bugungi kunda barcha fanlarda, xususan, kompyuter lingvistikasida ham samarali metod hisoblanadi.31 Kompyuter modellashtirish quyidagi asosiy bosqichlardan iborat:
- masalaning qo'yilishi, modellashtirish obyektining aniqlashtirilishi;
- konseptual (tushunchaviy, fikriy) modelning ishlab chiqilishi, tizim asosiy unsurlarining ajratib olinishi;
- formalizatsiya, ya’ni matematik model bosqichi; algoritm yaratilishi hamda dastur ishlanishi;
- kompyuter eksperimentlarini o‘tkazish;
- natijalar tahlili va talqini.
Sun’iy intellekt tizimi doirasidagi tabiiy tilli interfeys, ekspert tizimlari, eyron tarmoqlar, lingvoanalizatorlar, gapiruvchi avtomatlar - barchasi kompyuter modellashtirish natijasi hisoblanadi.
Modellashtirish jarayoni uchta unsurni o‘z ichiga oladi:
- subyekt (tadqiqotchi);
- tadqiqot obyekti;
- o‘ rganuvchi subyekt va o‘ rganiluvchi obyekt munosabatini aks ettiruv- chi model.
Modellashtirish har bir fan obyektini soddalashtiruvchi metoddir. Lingvistik birliklarni modellashtirish bu belgilar tarkibidagi elementlarning bar- qaror munosabatlariga asoslanadi. Shuning uchun ham butunlik tarkibidagi elementlar o'rtasida munosabatlarning barqaror va beqaror turlarga ajra- tilishi lingvistik modellashtirish uchun katta ahamiyatga ega. Modellashtirish barcha fanlar uchun xos boigan umumilmiy metod hisoblanadi va u quyidagi tamoyillarga amal qiladi:
- deduktivlik - mantiqiy xulosa chiqarishga asoslangan boiadi, xusu- siylikdan umumiylikka tamoyilida boiadi;
- tafakkur eksperimentidan foydalanish;
- evristik funksiyaga ega boiishi. Ya’ni u yangi g'oyalar bera olishi va uni amaliyotda sinab ko'rish imkoniyati boiishi zarur;
- eksplanatorlik xususiyatiga, ya’ni tushuntirish kuchiga ega boiishi kerak. Shundagina model eski nazariya tushuntirib bera olmagan muam- moni hal qiladi, obyektning ilgari kuzatilmagan, ammo kelajakda amalga oshishi mumkin boigan tomonini kashf etadi;12 - modelni ideallashtirilgan obyekt sifatida talqin qilish.
Shu o'rinda aytib o'tish zarurki, modellashtirish obyektni umumlashti- rish darajasiga ko'ra quyidagicha boiadi:
1. Lingvistik faktni tavsiflashga qaratilgan analitik model.
2. Oraliq model yoki toidiruvchi model.
3. Maksimal umumlashtirishga asoslangan sintezlovchi model.
Lingvistik model tushunchasi struktur tilshunoslikning E.Sepir,
L.Blumfild, R.Yakobson, N.Chomskiy, Z.Harris, Ch.Hokket kabi namoyan- dalari tomonidan kirib kelgan. Uning taraqqiyoti esa XX asrning 60 - 70- yillariga (matematik va kibernetik lingvistika rivojlana boshlagan davrga) to‘g‘ri keladi. Lingvistik modelni quyidagi turlarga ajratish mumkin:
1. Inson nutqiy faoliyati modellari. Bu modellar konkret nutq jarayonini va hodisalarini aks ettiradi. Masalan, aniq bir tovushning talaffuz modeli yoki nutqning yuzaga chiqish modeli.
2. Lingvistik tadqiqot modellari. Bunda muayyan til hodisalari asosida olib borilgan tadqiqot jarayonini aks ettiradi. Masalan, o‘zbek tilida morfologik usul asosida so‘z yasalishining umumiy modeli: asos + so‘z yasovchi qo‘shimcha; xususiy modellari: asos + -chi; asos + -dosh; asos + -do‘z kabi.
3. Metamodellar - bunda lingvistik modellar saralanadi, u gipotetik- deduktiv xarakterga ega, o‘ta abstraktlashgan va ratsionallashgan bo‘Iadi.
Modellashtirish metodi ayrim tillarga, jumladan, ingliz tiliga faol tatbiq qilingan. 0‘zbek tilida sodda gap qurilishi:
S + О + V : Men kitob o'qidim. Men xat yozdim.
S = ega, О - to'ldiruvchi, V = kesim.
Bundan kelib chiqib aytish mumkinki, o‘zbek tilida qo'shma gapning eng kichik modeli quyidagicha boiadi:
S, + V, S2 + V2: Bahor keldi, ishlar qizib ketdi.
Ingliz, rus tillarida sodda gap qurilishi quyidagicha belgilangan:
S + V + O:
Я пишу диссертацию. Он читает книгу.
I have read the book. I am writing a research work.
Modellashtirish tilshunoslikda strukturalizm yo‘nalishi ta’sirida faol tatbiq qilina boshlandi. Gap strukturasini modellashtirish g'oyasi XX asrning 50- yillarida amerikalik tilshunos Charlz Friz tomonidan olg'a surildi. Olim o‘z qarashlarini umumlashtirib 1952-yilda «The Structure of English» nomli tadqiqotini yaratdi: Ch.Friz o‘z konsepsiyasini distributiv model deb nom- lagan. Unga ko‘ra, gap muayyan so‘z turkumlariga oid bo‘lgan so'zlar zan- jiri hisoblanadi va tahlilda morfologiya bazasiga tayaniladi.