Kompyuter lingvistikasi

-MA’RUZA KOMPYUTER LEKSIKOGRAFIYASI

Yüklə 0,72 Mb.

səhifə	32/105
tarix	18.12.2022
ölçüsü	0,72 Mb.
	#76163

1 ... 28 29 30 31 32 33 34 35 ... 105

Kompyuter lingvistikasi (1)

Tayanch so‘z va iboralar
(on-line lug‘atlar)
Matnlar korpusi («cor pus» lotincha «tana» degan ma’noni anglatadi)

7-MA’RUZA

KOMPYUTER LEKSIKOGRAFIYASI

Reja:

Kompyuter leksikografiyasi kompyuter lingvistikasining alohida yo‘nalishi sifatida
Kompyuter lug‘atlari va ularning ishlash tamoyili
Kompyuter leksikografiyasi sohasining rivojlanishi

Tayanch so‘z va iboralar: ma’lumotlar ombori, leksikografiya, kompyuter leksikografiyasi, kompyuter lug‘atlari, kodlash va dekodlash, lemmatizatsiya, matnlar korpusi, korpus lingvistikasi, virtual matnlar korpusi, parallel matnlar korpusi, on-line lug‘atlar, kitobiy lug‘atlar, elektron lug‘atlar

Ma’lumki, leksikografiya tilshunoslik fanining amaliy sohalaridan biri hisoblanadi. U yunoncha «lexikos» - «so‘z», «lug‘at», «grapho» - yozaman degan ma’nolarni anglatadi. Leksikografiya bo‘limida lug‘atlar, ularni tu-zish yo‘llari va tamoyillari o‘rganiladi. Avtomatizatsiya ijtimoiy hayotning barcha jabhalariga kirib kelishi natijasida lug‘atlar ham elektron holatda yaratilish imkoniyati yuzaga keldi. Kompyuter yordamida lug‘atlar bilan ishlashning oplimallashuvi natijasida kompyuter leksikografiyasi yo‘nalishi shakllandi. Kompyuter leksikografiyasi amaliy tilshunoslikning muhim tarkibiy qismi bo‘lib, unda lingvistik va dasturiy ta’minot asosida ishlaydi-gan, kodlash va dekodlash prinsipi asosida yaratilgan kompyuter lug‘atlari, ularni tuzish dasturlari, algoritmlari o‘rganiladi. Mazkur sohaning rivojla-nishi natijasida turli nomlarda elektron lug‘atlar yaratilmoqda. Eng mash-hur elektron lug‘atlar sirasiga CONTEXT, ABBY LINGVO, MULTl-TRAN, POLYGLOSSTJM, MULTILEKS kabilar kiradi.

Leksikografiya sohasiga kompyuter texnologiyalarining tatbiq etilishi lug‘at tuzish ishlarini ancha yengillashtiradi. Lug‘at tuzish jarayonining naqadar murakkabligini bir tilshunos olim hazilomuz tarzda quyidagicha izohlagan: «Agar biror kislii og‘ir jinoyat sodir qilsa, imi katorgaga surgun qilish shart emas. U lug‘at tuzsin, sliunda и katorganing barcha azoblarini, qiyinchiliklarini tortgan bo‘ladi». Axborot manbalarini yig‘ish bo‘yicha maxsus dasturlar (Database Software) lug‘at asosini tashkil etuvchi barcha ma’lumot va misollarni jamlash va sistematik tarzda ishlov berishga qulaylik tug‘diradi. Bundan tashqari, boshqa maxsus dasturlar lug‘atni tahrir qilish va chop etish borasidagi ancha mashaqqatli mehnatni bir qancha oson lashtiradi. Elektron lug‘atlar ham, o‘z navbatida, an’anaviy lug‘atlarga qaraganda birmuncha afzalliklarga ega. Bugungi kunda, masalan, ABBY LINGVO kompaniyasining lug‘at va tarjima dasturlari ulardan foydalanuvchi har bir xaridorga o‘z lug‘atini tuzish yoki mavjud lug‘at so‘z boyligini to‘ldirib borish imkonini beradi. Ochiq turdagi Internet lug‘atlari (on-line lug‘atlar) ham ko‘p hollarda barcha foydalanuvchilarga ushbu lug‘atlarni to‘ldirish imkonini beradi. Shuningdek, elektron lug‘atlarning hajm jihatidan ixchamligi, kompaktligi, boshqa manbalarga (Internet tarmog‘i orqali, giper-murojaatlar yordamida) ulanish imkoniyati, mavjud matnlar korpuslari yordamida illustrativ misollar tuza olish imkoniyati, multimediali misollar bilan boyitilganligi, so‘zlarning sinonimik variantlari, omonimlik xususiyatlari, grammatik ma’lumotlar bilan ta’minlanganligi va ularning tezlik bilan foydalanuvchiga havola etilishi kabi jihatlari elektron lug‘atlarning optimalligini ta’minlaydi.
Kompyuter leksikografiyasini elektron matnlar korpusi yoki parallel matnlar korpuslarisiz tasavvur qilish mumkin emas. Matnlar korpusi («corpus» lotincha «tana» degan ma’noni anglatadi) - bu elektron holda saqla-nadigan ma’lum til birliklari bo‘lib, ular tilshunoslar uchun turli xil muam-molarni hal etish uchun tatbiq etishda va turli yo‘nalishdagi tadqiqotlar uchun zaruriyatga qarab turli shakllarda tuziladi. Bular fonema, grafema, morfefrfalardan tortib undan kattaroq birliklar - leksema, gap va matnlardan (badiiy yoki ilmiy asar, gazeta va jurnal matnlari) tashkil topishi mumkin. Ularning qay tarzda saqlanishiga qarab maxsus dasturlar yordamida har bir kerakli so‘z yoki so‘z birikmasi uchun darhol uning qo‘llanishi bo‘yicha misollar topilishi, imlo bo‘yicha variantlari, sinonimik qatorlari topilishi mumkin. Matnlar korpusiga oid ilmiy tadqiqotlar salmog‘ining ko‘payishi natijasida tilshunoslikda korpus lingvistikasi yo‘nalishi shakl-landi.
Kompyuterda yaratilgan birinchi matnlar korpusi Braun korpusi (БК, inglizcha Brown Corpus, ВС) hisoblanadi, u 1961-yilda Braun universiteti-da yaratilgan, har biri 2000 so‘zli 500 ta matn fragmentini o‘z ichiga oladi. 1970-yillarda 1 mln so‘zni o‘z ichiga olgan matnlar korpusi asosida rus tilining chastotali lug‘ati yaratildi. 1980-yillarda Shvetsiyaning Upsala uni-versitetida ham rus tilida matnlar korpusi yaratildi. Keyinchalik kompyuter leksikografiyasining rivojlanishi natijasida katta hajmli matnlar korpusiga ehtiyoj tug‘ildi. Ya’ni 1 mln ta so‘z elektron lug‘atlar bazasi uchun yetarli emas. Shu asosda yirik hajmli matnlar korpusi yaratila boshlandi. Ko‘pgina mamlakatlarda XX asrning 80-yillaridan boshlab bunday korpuslar tuzila boshlandi. Ular turli maqsad va vazifalarga xizmat qiladi. Buyuk Britani-yada Ingliz tili Banki (Bank of English) hamda Br it amy a MiUiy Korpusi (British National Corpus, BNC), Rossiyada Rus tilining mashina fundi фашинный фонд русского ячыка) hamda Rus tilining MiUiy Korpusi (Цаииоиальный корпус русского языка) loyihalari ishlab chiqildi.73 Masalan, Rus tilining milliy korpusi hajmi hozirgi kunda 149 mln so‘zdan iborat. Keyingi yillarda Internet tizimining rivojlanishi virtual matnlar korpusi yuzaga kelishiga olib keldi. Ya’ni Internetdagi qidiriv saytlari, elek-tron kutubxonalar, virtual ensiklopediyalar korpus vazifasini bajarmoqda. Korpusning janri va tematik rang-barangligi Internetdan foydalanuvchi-ning qiziqishlariga bogiiq. Masalan, ilm-fan doirasida Wikipedia katta hajm-dagi matnlar korpusi sifatida foydalanilmoqda.74
Korpus lingvistikasida parallel matnlar korpusi ham muhim ahamiyat kasb etadi. Parallel matnlar korpusi esa, o‘z navbatida, badiiy asar, qo‘llanma, ommaviy axborot vositalari, turli xil hujjatlarning ikki yoki undan ko‘p tillardagi elektron holdagi ko‘rinishlaridir. Masalan, Yevropa Ittifoqi o‘zining barcha qonun va hujjatlarini ingliz, fransuz, nemis, ispan va ital-yan tillarida nashr qiladi hamda ular Internet tizimiga barchaga ochiq arxiv sifatida qo‘yiladi. Bunday korpuslarning afzalligi shundaki, ular yordami-da nafaqat biron bir so‘z yoki jumlaning, balki butun boshli matnlarning turli tillardagi variantlarini bilish imkoniyati mavjud. Xuddi mana shu im-koniyat tufayli maxsus konkordanser dasturlar ishlab chiqish orqali turli xil ixtisoslik lug‘atlari tuzish imkoniyati tug‘iladi. Ushbu imkoniyatlar komp-yuter leksikografiyasi uchun ulkan ahamiyat kasb etadi.
Kompyuter leksikografiyasiga semantik maydon, semantik tarmoq, semantik tokr hamda freym semantikasining faol tatbiq etilishi natijasida ulkan kompyuter leksikografiya resurslari yaratildi. Shunday yirik lek-sikografik resurslardan biri FRAMENET bo‘lib, u Internet tizimida on-line rejimida ishlaydi.75 Mazkur tizim Ch.Fillmorning «Tools for Lexicon Building» loyihasi asosida Kaliforniya shtati, Berkli shahridagi Xalqaro infor-matika institutida ishlab chiqilgan. Framenet resursining ma’lumotlar ba-zasida 10 000 ta leksik birlik mavjud, undan 6000 dan ortig‘i toiiq anno-tatsiyaga ega. Bundan tashqari, ma’lumotlar bazasida 800 ta semantik freym ko‘rsatilgan, 135 000 annotatsiyali gaplar keltirilgan.
Elektron lug‘atlar tuzish jarayonida ma’lumotlar ombori, matnlar korpusini yaratish, qidiruv tizimi, kodlash, lingvistik va dasturiy ta’minot un-surlari qatorida lemmatizatsiya bosqichi ham mavjud. Lemmatizatsiya - bu so‘zning dastlabki, boshlang‘ich formasini (lug‘atdagi shaklini - lemmasi-ni) tashkillashtirish texnikasi bo‘lib, bu jarayon o‘sha so‘zning boshqa so‘z-shakllaridan kelib chiqqan holda amalga oshiriladi. Lemmatizatsiya mor-fologik tahlil metodi tarkibiga kiradi, u ikki bosqichni o‘z ichiga oladi: 1) deklarativ bosqich - bunda muayyan so‘zning mumkin bo‘lgan barcha shakl-lari (so‘z-shakllar) belgiianadi; 2) protsedura bosqichi - bunda so‘z asos va qo‘shimchalarga, ya’ni leksemalarga yoki morfemalarga bo‘linadi. Lemmatizatsiya so‘zlaming grammatik valentligi, qaysi affikslar bilan birika olish imkoniyatini ham belgilab beradi. Masalan, o‘zbek tilida so‘zlaming lug‘atdagi shakli - lemmasi quyidagicha:
ot so‘z turkumi uchun - bosh kelishik, birlik shakli;
fe’l so‘z turkumi uchun - harakat nomi shakli;
sifat so‘z turkumi uchun - oddiy daraja shakli.
Daftarlarni, daftarlarga, daftarlarning, daftarlardan, daftarlarda ! daftar Yugurdi, yugurgan, yuguryapti, yugurmoqchi ! yugurmoq Ko‘kimtir, ko‘kish, ko‘kroq ! ko‘k Kitobiy lug‘atlar va elektron lug‘atlarning farqi quyidagilarda ko‘rinadi:
1. Kitobiy lug‘atlarning tuzilishi:
a) lug‘atning so‘zligi shakllantiriladi;
b) misollar kartotekalari tuziladi;
c) lug‘at maqolalari yoziladi;
d) lug‘atning qolyozrrm varianti tayyorlanadi;
e) qo‘lyozma tahrir etiladi;
f) muallif tuzatishlar qiladi;
g) nashr uchun teriladi;
h) lug‘at sahifalanadi;
i) korrektirovkaqilinadi;
j) lug‘at nashr etiladi.
2. Elektron lug‘atlarning tayyorlanishi:
a) lug‘atning so‘zligi shakllantiriladi;
b) misollar korpusi (elektron kartotekalari) tuziladi;
c) lug‘at maqolalari yoziladi;
d) lug‘at maqolalarini ma’lumotlar bazasiga ko‘chiriladi;
e) bevosita ma’lumotlar bazasida lug‘at matni tahrir etiladi, korrektirovka
qilinadi;
f) lingvistik ta’minot dasturiy ta’minot bilan uyg‘unlashtiriladi;
g) elektron lug‘at.
Kitobiy lug‘atlar tuzilishi sahifalar ketma-ketligiga tayanadigan chiziq-lilik tamoyiliga bo‘ysunadi. Elektron lug‘atlar strukturasi gipertekst tex-nologiyasiga asoslangan bo‘ladi, bu esa foydalanuvchiga lug‘at maqola-larining ixtiyoriy qismiga tezkor murojaat qilish imkonini beradi.
Elektron lug‘atlarning ishlash prinsiplarini umumlashtirib quyidagicha izohlash mumkin:76 Tilning har bir so‘ziga mutanosib keluvchi kod ishlab chiqiladi va qo‘llanadi, kodni qayta ishlash jarayonida zaruriy bo‘lgan Ma’lumotlar ombori ma’lumotlar, tarjimalar, sinonim, antonim va sharhlarga ega bo‘lish mumkin.
So‘zlarni kodlashtirish quyidagicha amalga oshiriladi. Ma’lumotlar tekst fayllarga joylashtiriladi, uning har bir elementi 3 qismdan iborat bo‘ladi:
1) so‘zning tartib raqami;
2) so‘z;
3) kod.
«So‘zning tartib raqami» (ya’ni uning adresi). So‘zlarning tarjimasi, si-nonimlari va antonimlarini ko‘rsatish ularning birinchi harflarini ko-dirovkadagi tartib raqamlari bilan birgalikda keltirish bilan amalga oshiriladi.
«So‘z» - mutanosib alfavit harflari bilan yozilgan oddiy so‘z.
«Kod» - raqam va harflar ketma-ketligi boiib, unda so‘z barcha zaruriy morfologik, sintaktik, leksik xususiyatlari hamda ushbu so‘zning qaysi so‘zga tegishliligi haqidagi ma’lumotlar jamlangan bo‘ladi: grammatik ma’lumot, adreslar, tarjima, sinonim, antonim, mutanosib sharhlar.
Kodlarni yaratish CREATE va CREATE 1 dasturlari orqali amalga oshiriladi. Ular quyidagi tartibda ishlaydi:
So‘z kiritiladi.
Grammatik ma’lumotlar yaratiladi - kompyuter so‘z haqida morfologik va sintaktik ma’lumotlarni so‘raydi va ular darhol aniq nisbat asosida shifrlanadi.
Tayyor shifr «Grammatik ma’lumotlar» bo‘limiga yozib qo‘yiladi.
3. Tarjimalar sinonimlar, antonimlar adreslari yaratiladi:
a) tarjimasi bolishi mumkin bo‘lgan so‘z so‘raladi;
b) kiritilgan so‘z kodning mutanosib bo‘limiga yozib qo‘yiladi;
v) kodlashning oxirida tarjimalar (sinonimlar, antonimlar) kodi topiladi va kiritilgan so‘zlar o‘rniga ularning birinchi harflari va tartib raqamlari yoziladi (masalan, «katta» so‘zi o‘rniga K0083), agar tarjimalar (sinonim, antonimlar) kodi topilmasa, u holda shu so‘zga nisbatan kodlash operatsi-yasi amalga oshiriladi va bu bilan bosqich tamomlanadi.
5. Mazkur so‘zga sharh kiritiladi:
matn kiritiladi;
maxsus dastur asosida so‘z va unng sharhi orasidagi moslik belgilanadi, so‘ngra kiritilgan matn xotiraga yoziladi, ular orasidagi moslik csa so‘z kodida o‘z ifodasini topadi.
Dastur ishlay boshlashi bilan ekranda u va uni ishlab chiquvchilari haqida ma’Iumotlar paydo bo‘Iadi. Ular bilan tanishilgandan so‘ng klavish bosiladi va dastur quyidagi bosqichlarda o‘z ishini davom ettiradi:
1. Ekranga 6 rejimga ega oyna chiqdi.
I-rejim. Only translation (faqat tarjima) - podstrochnikda foydalani-ladigan tarjimalarni va mazkur so‘zning qaysi sohaga tegishliligi haqidagi ma’Iumotlarni beradi. Mazkur rejimning asosiy funksiyasini Only-tran maxsus protsedurasi amalga oshiradi. Ushbu protsedura, avvalo, mazkur so‘z l$pdining adreslar bo‘Iimidan tarjimalar adresini izlab topadi. So‘ng uni qayta ishlashni boshlaydi: tarjimaning birinchi harfini olib, tekst faylini ochadr (shu harf bilan nomlangan) va berilgan tartib raqamiga ko‘ra tarji-mani topib, uni ekranga chiqaradi.
Grammatical information (grammatik ma’Iumotlar) - so‘zning barcha morfologik va sintaktik xususiyatlari va undan foydalanishdagi ayrim noa-niqliklar haqidagi ma’Iumotlarni beradi. Gram info maxsus protsedurasi ishlaydi. Grammatik ma’Iumotlar kodi bo‘limidajamlangan ma’Iumotlarni rasshifrovka qiladi.
List of synonyms (sinonimlar ro‘yxati).
List of antonyms (antonimlar ro‘yxati).
Ushbu rejimlar Syn-List va Ant-list maxsus protseduralar yordamida sinonimlar va antonimlar ro‘yxatini beradi. Ular quyidagi tartibda ishlaydi: sinonim va antonimlar kiritilgan so‘z kodning «sinonimlar adresi» va «antonimlar adresi» bo‘Iimlaridan topiladi hamda ekranga chiqariladi.
5. New word formation (yangi so‘zlarni qayta yasash) - mazkur so‘z bi lan bir xil o‘zakka ega bo‘igan barcha so‘zlarni chiqarib beradi. Asosiy ish NWF protsedurasi vositasida amalga oshiriladi:
so‘zning o‘zagi ajratiladi;
so‘z haqidagi barcha ma’lumotJarga ega bo‘igan holda ushbu o‘zakka old qo‘shimcha va boshqa qo‘shimchalarni qo‘shish orqali o‘zgartirilishi niumkin bo‘lgan barcha so‘zlarni chiqarib beradi.
6. Comments (sharhlar) - o‘rganilayotgan so‘z tez esda qolishi uchun «aytib berish» (podskazka) ko‘rinishidagi sharhlarni chiqarib beradi.
II. Ish uchun zarur bo‘lgan rejim tanlanganidan so‘ng so‘z kiritiladi. Ayrim elektron lug‘atlarda leksikon bazasi ozligi sababli ayrim so‘zlarning xotirada kodi bo‘lmasligi ham mumkin. Shuning uchun kirishdan so‘ng Find Word protsedurasi ish boshlaydi. Uning vazifasi xotiradagi so‘z kodini izlash- dan iborat. Agar u topilsa, maxsus protseduralar uzatiladi, aks holda quyidagi xabar chiqadi «Sorry, I do not know (Uzr, men buni bilmayman) va keyingi so‘z kiritiladi.
Topilgan kod tanlangan rejimning maxsus dasturlari bilan qayta ishlanadi, buning natijasida talab qilingan ma’lumotlar chiqariladi.
Tanlangan rejimlarda ishni davom ettirish haqida so‘raladi. «Ha» javobidan so‘ng dastur ishi ikkinchi bosqichda davom ettiriladi. Aks holda keyingi bosqichga o‘tiladi.
V. Dastur ishini tamom qilish haqida so‘raladi.
Kompyuter leksikografiyasi bugungi kunda turli qo‘shimcha imkoniyatlar asosida rivojlanib bormoqda. Xususan, dastlab kompyuter lug‘atlari bir tilli, ikki tilli bo‘lgan, hozirda ko‘p tilli (uch, to‘rt, olti, o‘n tilli) elektron lug‘atlar yaratilmoqda. Shuningdek, keyingi paytlarda muayyan sohalarga ixtisoslashgan elektron lug‘atlar ham yaratilmoqda. Ya’ni dastlab kompyuter lug‘atlari faqat umumiy leksikon bilangina cheklangan edi, hozirda fanga oid bo‘lgan, qurilish, aviatsiya, avtomobilsozlik, harbiy, diniy, yuridik sohalarga oid so‘zlar bazasi ham e’tiborga olinmoqda. Hatto so‘zlarning matnda qo‘llanish imkoniyatlari, distributiv holatlari, birikma holidagi ko‘rinishlari ham nazarda tutilgan holda lug‘atlar yaratilmoqda. Bu ko‘rsatkichlar kompyuter leksikografiyasi sohasining taraqqiy etayotganidan darak beradi.

Yüklə 0,72 Mb.

Dostları ilə paylaş:

1 ... 28 29 30 31 32 33 34 35 ... 105