Kompyuterda matnlarni qayta ishlash tizimlari. Korpus lingvistikasi
Korpus haqida to‘xtalganda, juda ko‘plab ilmiy manbalar va tadqiqot natijalarida turli xil yondashuv va ma’lumotlarni kuzatish mumkin.
Korpus – bu matnlar yoki matnlardan maxsus tanlangan qismlaridan ma’lum bir tarzda tashkil etilgan og‘zaki birlikdir.
Korpus – bu lingvistik tahlil uchun muayyan tildan olingan matnlar yoki yozma matnlar to‘plamidir.
Korpus – bu elektron shaklda saqlanadigan va kompyuterlashtirilgan qidiruvni tashkil etishga imkon beradigan har qanday tildagi og‘zaki yoki yozma matnlardan iborat bo‘lgan tabiiy matnlar to‘plamidir.
Korpus – tilni yoki tilning o‘zgarishini to‘liq aks ettirish uchun tashqi mezonlar asosida tanlangan elektron shakldagi matnlarning qismlari to‘plamidir. Lingvistik tadqiqotlar uchun ma’lumotlar manbai sifatida ishlaydi [1:2].
Korpus tabiiy ravishda mavjud bo‘lgan matnlarning tizimli to‘plami sifatida belgilanishi mumkin (ham yozma, ham og‘zaki nutq). Korpus har qanday sistematik matn to‘plamiga murojaat qilishi mumkin bo‘lsa-da, u bugungi kunda ham tor ma’noda ishlatiladi va odatda kompyuterlashtirilgan muntazam matn to‘plamlariga murojaat qilish uchun ishlatiladi [2:2].
Tabiiy tillarni qayta ishlash bo‘yicha zarur bo‘lgan birinchi vazifalardan biri korpusdir. Tilshunoslikda va tabiiy tillarni qayta ishlashda korpus matnlar to‘plamiga aloqador bo‘ladi. Bunday to‘plamlar bir tilning yoki bir necha tillarning matnlaridan shakllantirilishi mumkin. Ko‘p tilli korpuslarning foydali bo‘lishi uchun ko‘plab muhim sabablar mavjud. Korpuslar, shuningdek, muayyan mavzuli matnlardan tashkil qilinishi mumkin (masalan, tarixiy matnlar, Bibliyaga oid va hakoza) [3].
Korpus matnlarning katta to‘plami bo‘lishi bilan birga, bu lingvistik tahlilga asoslanadigan yozma yoki og‘zaki materiallar asosi hamdir. Korpusning ko‘plik shakli – korpuslar (corpora). Tilshunoslar tilshunoslik hodisalarini tahlil qilish uchun qanday ma’lumotlarni korpusga kiritadi, korpus qanday mezonlar asosida shakllantiriladi savoli yuzaga keladi. Korpusda qanday ma’lumotlar kiritilishi mumkin degan savolga aniqlik kiritamiz:
aniq bir yozuvchining yoki yozuvchilarning matnlari;
aniq o‘n yil yoki asrga oid matnlar;
muayyan mavzudagi zamonaviy matnlar;
til yoki jamiyatda yetarlicha mavjud bo‘lgan zamonaviy matnlardan foydalaniladi.
Yuqoridagiga o‘xshash matn turlaridan korpus shakllantirilganda quyidagilarni qidirish mumkin:
to‘g‘ridan – to‘g‘ri kontekstdagi so‘zlarning barcha shakllari;
lug‘atdagi o‘zgarish va izchillik;
eng ko‘p tanlangan so‘z birikib kela oladigan so‘zlar;
ikkita matnlar o‘rtasidagi eng muhim farqlar;
muayyan yozuvchining so‘z va iboralarni qo‘llashdagi o‘ziga xoslik;
intertekstuallik: so‘zning ma’nosi uning qo‘llanilish yig‘indisi sifatida;
so‘z birliklaridan foydalanadigan yashirin modellar;
tillarni taqqoslash.
Korpus odatda juda kichik bo‘lishi mumkin, masalan, faqat 50 ming so‘zni o‘z ichiga oluvchi yoki ko‘proq millionlab so‘zlarni o‘z ichiga olgan korpuslar. Korpus ichidagi matnlar turli kitoblar, gazetalar yoki jurnallardan skaner qilingan yoki elektron yuklab olinishi mumkin. Boshqa yozma korpuslar badiiy asar namunalaridan yoki bir muallifning barcha asarlarini o‘z ichiga olishi mumkin (masalan, Alisher Navoiy asarlari). Shakllantiriladigan korpuslar maqsadi va korpus menedjeriga ko‘ra turli xil bo‘ladi. Hozirda bir qancha mashhur korpuslarni namuna sifatida o‘rganish mumkin:
- umumiy korpuslar/ ma’lumotnoma korpuslar (BNC – Britaniya Milliy korpusi yoki Ingliz tili banki) – butun bir tilni ifodalashga qaratilgan.
- tarixiy korpuslar (Xelsinki korpusi, ARCHER) – tilning ilk bosqichlarini taqdim etishni maqsad qilgan.
- mintaqaviy korpuslar (WCNZE – Vellington corpus of written New Zealand English) – tilning bir mintaqaviy turini ifodalashga yo‘naltirilgan.
- Og‘zaki korpuslar (LLC – London-Lund korpusi) – og‘zaki tilni ifodalashga qaratilgan [ 4:3].
“Korpusning qidiruv tizimi va uning ishlash prinsipi odatda 3 turdagi asosiy qismni o‘z ichiga oladi, bu korpusdagi ma’lumotlar bazasini tekshirishga yordam beradi. Bular: metama’lumot, matn razmetkasi va lingvistik annotatsiya. Metama’lumotlar – matn kim tomonidan yozilgani, qachon nashr qilingani, qaysi tilda yozilgani to‘g‘risida ba’zi ma’lumotlarni beradi. Metadata korpus matnida kodlanishi mumkin, bundan tashqari alohida hujjat yoki ma’lumotlar bazasida saqlanishi mumkin. Matn razmetkasi (tekstual markup) matnda haqiqiy so‘zlardan boshqa ma’lumotlarni ham kodlaydi. Misol uchun matn razmetkasi odatda matnni formatlashni ifodalash uchun ishlatiladi - masalan, kursiv yozuvni boshlash va tugatish kabi. Og‘zaki korpuslar transkripsiyasida metama’lumotlar va matn razmetkasida ko‘rsatilgan ma’lumotlar transkriptni tahlil qilish uchun juda muhim bo‘lishi mumkin. Metama’lumot odatda matndagi ma’ruzachilarni aniqlab beradi va har birining yoshi va jinsi haqida foydali ma’lumot beradi. Matn razmetkasi keyinchalik har bir ma’ruzachi gapirishni boshlaganini va tugatganligini ko‘rsatish uchun ishlatiladi. Korpusga kiritilgan metadata va matn razmetkasi birgalikda bir qator tadqiqot savollariga javob beradi. Biroq biz faqatgina kursiv yoki aniq ma’ruzachining nutqi boshlangan yoki tugagan vaqtdagi korpus matnining xususiyatlarini yozib olishimiz mumkin. Shuningdek, matn korpusi ichida lingvistik ma’lumotlarni kodlashimiz mumkin, keyinchalik bu tahlilni muntazam va aniq tarzda tiklashimiz mumkin, bu holatda korpus analitik yoki lingvistik nuqtai nazar bilan izohlanadi. Annotatsiya odatda bir xil kodlash qoidalarini matn razmetkasi sifatida foydalanadi, masalan, XML (extensible markup language) qirrali-bracket teglari oson ishlatilishi mumkin, bu yerda otli fraza boshlanadigan nuqtada () va tugash nuqtasida () ishlatiladi. Masalan, Talaba xonada o‘tiribdi. ( The cat sat on the mat ) Korpusga lingvistik annotatsiya qanday kiritilgan va nimani izohlashi bo‘yicha chegaralar bormi, degan savol yuzaga keladi. Lingvistik annotatsiya xususida uchta yondashuv mavjud: faqat avtomatik annotatsiya, avtomatlashtirilgan annotatsiya lekin keyin qo‘lda tuzatiladi va to‘liq qo‘lda izohlash. Ushbu yondashuvlarning hech biri hozircha xatodan holi emas. Masalan, ingliz tilida nutq qismlarini avtomatik tarzda izohlashni yuqori darajadagi aniqlik bilan bajarishi mumkin. Olimlar Garsayd va Smitlar (1997) 97 foizdan ko‘prog‘i aniqlangani tog‘risida hisobot bergan. Bu avtomatik annotatsiyada xatolar borligini anglatadi, lekin bu bilan qo‘lda ishlov berishda hech qanday xatoga yo‘l qo‘yilmasligini kafolatlash mumkin emas – hech qanday insoniy tahlil mukammal emas [5:30].” Umuman olganda, korpuslardan statistik lingvistik analizi va ilmiy nazariya tekshiruvida foydalaniladi va bu jarayon kam vaqtlar oralig‘ida amalga oshirilishi bilan ahamiyatlidir.
Shakllantirilgan korpuslarda lingvistik analiz dasturiy ta’minot tomonidan amalga oshiriladi. Dasturiy ta’minot bitta maxsus korpus uchun yaratilgan yoki barcha korpus turlariga xizmat qiladigan dasturiy ta’minot bo‘lishi mumkin. Ko‘p foydalaniladigan dasturiy ta’minotdan biri Mono Conc Pro (http:/www.camsoftpartners.co.uk./monoconc.htm saytida mavjud) va WordSmith dasturlari ham eng ko‘p ishlatiladigan korpus dasturidir. Shu va shunga o‘xshash korpus dasturlari orqali tanlangan matndan biror so‘zni qidirish uchun belgilash, qidiruvga berish, qidiruv natijalariga ko‘ra nafaqat so‘zning uchrash miqdori haqida ma’lumot olish, shuningdek so‘z bilan birikib kelish imkoniyatiga ega birlik haqida ham ma’lumot olish mumkin. Masalan ACE (the Australian Corpus of English) korpusida WordSmith dasturi orqali stark so‘zining qidiruv tahlili olib borilganda quyidagicha natija olingan.
Tahlildagi chap tomondagi 1 dan 9 gacha bo‘lgan raqam o‘ng tomondagi topilgan natijalar miqdori, ace_j.txt – bu korpusdagi faylning nomi, ya’ni qaysi matndan olinganini anglatadi. Bu kabi tahlillarni boshqa korpus dasturlari orqali ham amalga oshirish mumkin. Korpus qidiruv tizimi ishga tushirilganda sekundlar ichida olish mumkin bo‘lgan natijani biz qo‘limiz bilan uzoq vaqt ichida olamiz. Yuqoridagi tahlil eng oddiy ko‘rinish va turidan biridir, korpuslar orqali ko‘plab maqsadli lingvistik tahlillarni o‘tkazish uchun O‘zbek tilida ham til korpusining yaratilishiga ehtiyoj yuqoridir.
Foydalanilgan adabiyotlar ro‘yxati:
А.Б.Кутузов. Курс. Корпусная лингвистика
Nadja Nesselhauf. Corpus linguistics: a practical introduction, 2005.
Matthew Mayo. Building a Wikipedia text corpus for natural language processing, 2017. https://www.kdnuggets.com/2017/11/building-wikipediya-text-corpus-nlp.html
Nadja Nesselhauf. Corpus Linguistics: A Practical Introduction, October 2005 (last updated September 2011)
Tony McEnery, Andrew Hardie. Corpus linguistics. Cambridge University Press, 2012
Dostları ilə paylaş: |