O‘zbek tili korpusini yaratish muammolari va vazifalari.
Korpus tahlil (korpus analiz) yo‘nalishi.
Korpus –bu bir nechayoki muayyan til matnlarining yig‘indisiga asoslangan elektron shaklda to‘plangan ma’lumot (so‘rovnoma)lar tizimidir. Milliy korpus esa muayyan tilning ma’lum davr (yoki davrlar)dagi maqomi, janrlari, uslublari, hududiy hamda ijtimoiy ko‘rinishlari va boshqalarni o‘z ichiga oladi.
Milliy korpus tilshunoslikning korpus lingvistikasi mutaxasislari tomonidan tuziladiki, bu ilmiy tadqiqot va til o‘rganish uchun xizmat qiladi.
Jahonning ko‘pgina yirik tillari allaqachon ilmiy ishlanganligi, hajmi va ko‘lamiga ko‘ra o‘zaro farqlanuvchi o‘zining milliy korpusiga ega. Masalan, ko‘pchilik tomonidan e’tirof etilgan Britaniya milliy korpusi (BMK)dir. Aksariyat milliy korpuslar mazkur loyiha asosida shakllangan. Shuningdek, Praganing Karlova universiteti tomonidan tuzilgan Chex milliy korpusi ham slavyan tillari orasida ajralib turadi.
Milliy korpusning o‘ziga xos ikki muhim xususiyati mavjud. Birinchidan, u me’yorlashtirilgan muayyan tarkibga ega ekanligi bilan xarakterlanadi. Bu korpus ma’lum tilda berilgan (turli badiiy janrlar: publitsistik, o‘quv, ilmiy, ish yuritish, so‘zlashuv, shevaviy kabi),ularning barchasi imkon darajasida ma’lum doiraga oid ma’lumotlarning proporsional matnlari hisoblanadigan og‘zaki va yozma ko‘rinishlarining barchasini o‘z qamroviga oladi degani. Korpusning qoniqarli darajada bo‘lishi uchun uning ko‘lamiga e’tibor qaratish kerakligini nazardan chetda qoldirmaslik kerak (masalan, o‘n va yuz milliongacha so‘z qo‘llash kabi).Yoki rus tili milliy korpusi tuzuvchilari tomonidan ikki yuz million so‘z kiritish rejalashtirilgan.
Ikkinchidan, korpus unga kiritilayotgan matnlarning o‘ziga xos jihatlari to‘g‘risida muhim ko‘shimcha ma’lumotlarni saqlaydi (bular annotatsiya yoki kiritma ko‘rinishidagi matnlardir). Kiritma– korpusning asosiy bosh ma’lumotnomasi bo‘lib, u korpusni zamonaviy internet tarmog‘ida mavjud bo‘lgan oddiy matnlar (yoki “kutubxonalar”) to‘plamidan ajratib turadigan, masalan, bir muncha mashhur bo‘lgan “Maksim Morshkov kutubxonasi” yoki “Rus vertual kutubxonasi” kabilardan farqlanadigan matnlardir. Hozirgi vaqtda mutaxassislar tomonidan “Fundamental elektron kutubxona” yaratildi va u doimiy ravishda rus mumtoz adabiyoti namunalari bilan to‘ldirib borilmoqda.Unga muntazam tarzda va yuqori aniqlikda nashr etilayotgan adabiy matnlar kiritilib turadi. Biroq bu kabi kutubxonalarda qayta ishlanmagan matnlar ham mavjud bo‘lib, ilmiy tadqiqotlar uchun foydalanishda bir muncha chegaralangandir. Shuni ta’kidlash kerakki, bu kabi kutubxonalar til xususiyatlaridan ko‘ra matnning mazmun-mohiyati bilan qiziquvchilar tomonidan yaratiladi. Milliy korpus kutubxonalardan farqli o‘laroq “qoniqarli” va “foydali” matnlar to‘plami emas. U, asosan, til o‘rganish uchun xizmat qiluvchi jihatdir. Bunda o‘rtamiyona yozuvchilarning romanlari ham, oddiy so‘zlashuvmatnlari va ijara shartnomalardan ham, mumtoz badiiy adabiyot namunalari qatorida foydalanilaveradi.
Korpusning rang-barang ilovalar bilan boyitilishi uning ilmiy va o‘qimishliligini baholaydigan jihatdir. Rus tili milliy korpusida kiritmalarning to‘rt turidan foydalaniladi:1) metamatnli;2) morfologik;3) talaffuz (aksentologik) va 4) semantik. YAqin kunlarda uning sintaktik ko‘rinishi kiritilishi ham rejalashtirilayapti. Kiritmalar tizimi borgan sari ko‘payib, takomillashib boraveradi.
Shu o‘rinda milliy korpus nega kerak degan savol tug‘iladi.
Milliy korpus,avvalo, tilning leksika va grammatikasi yuzasidan olib boriladigan ilmiy tadqiqotlar uchun kerak. SHuningdek, bir necha yuz yilliklar davomida tilda yuz beradigan uzluksiz o‘zgarishlar, jarayonlarni kuzatish imkonini beradi.
Korpusning yana bir vazifasi til sohalarining barcha jihatiga taalluqli ma’lumotlarni olish (masalan,leksik, grammatika, aksentologik, til tarixi kabi), zamonaviy kompyuter texnologiyalari vositasida katta hajmdagi til hodisalarini juda tez tahlil qilish va siqiqlashtirishga xizmat qilishdan iborat. Avvallari tadqiqotchi zarur misollarni qo‘lda yozib olar, bu esa juda ko‘p mehnat talab qilgani holda oz miqdordagi materiallarni qayta ishlashga imkon berar edi.
Endilikda tahlil qilinayotgan materiallarning ko‘lami va ma’lumot topish tezligida muammolar bo‘lmaydi. Bu esa tadqiqodchi uchun beqiyos imkoniyatlar eshiklarini ochadi. Milliy korpus til haqidagi bilimlarimiz imkoniyatini, shuningdek, uni statistik tahlil qilishning (o‘rganishning), hatto hozirga qadar o‘rganilmay kelinayotgan hodisalarning qurilishi va taraqqiyotidagi qonuniyatlarni, mavjud xulosalarga bo‘lgan shubhalarni yoki taxminiy hodisalarni aniqlash imkonini beradi. Endilikda tilning grammatik qurilishi, hatto mashhur akademik lug‘atlar, hech istiholasiz muayyan tilning milliy korpusi asosida yaratilishi kerak bo‘ladi. SHu nuqtayi nazardan milliy korpus talabgorlari, albatta, muayyan tilning turli sohalari tadqiqotchi–lingvistlari hisoblanadi. Biroq korpusdan foydalanuvchilar professional mutaxasislar bilan chegaralanmaydi. Davr yoki ma’lum muallifning fiklari, til haqidagi ishonchli statistik ma’lumotlari adabiyotshunoslarni, tarixchilarni va gumanitar bilimlarning turli vakillarini qiziqtirishi mumkin. Milliy korpuslar milliy va chet tillarni o‘qitish uchun ham muhim ahamiyat kasb etadiki, ko‘pgina darslik va o‘quv rejalari hozirda milliy korpusga moslangan bo‘lishi kerak. Korpus ko‘magida taniqli mualliflarning notanish so‘z yoki grammatik shakllarini ajnabiy ham, maktab o‘quvchisi ham, o‘qituvchi ham, jurnalist ham, redaktor yoki yozuvchi ham tez va oson tekshirib olishi mumkin bo‘ladi.
Demak, milliy korpus kasbidan yoki u oddiy qiziquvchimi,muayyan til korpusining tuzilishi va ishlashidan,undan foydalanuvchilarning millatidan qat’i nazar, o‘rganuvchilar uchun birdek foydalanish imkonini beradi.
Milliy korpus qanday rivojlanadi?
Rus tilining milliy korpusi, avvalo, o‘z ichiga XVIII asrning o‘rtalaridan to XXI asrning boshlarigacha bo‘lgan davrni qamrab oladi. Bu davr xoh o‘tgan, xoh yangi bo‘lishidan qat’i nazar, u sotsiolingvistik ko‘rinishdagi badiiy, so‘zlashuv, jonli so‘zlashuv, qisman dialektal matnlarni tashkil qiladi. Korpusga badiiy qimmatga ega bo‘lgan va til o‘rgatishga qiziqish uyg‘otadigan, orginal (tarjima qilinmagan) badiiy adabiyot namunalari kiritiladi (proza va drama, keyinchalik she’riyat ham). Badiiy she’rlardan tashqari, yozma adabiyotning boshqa namunalaridan publisistika, ilmiy ommabop va ilmiy adabiyotlar, shaxsiy chiqishlar (ma’ruzalar), shaxsiy yozishmalar, kundaliklar, xujjatlar va boshqalar ham kiritiladi.
Hozirga vaqtda rus tili milliy korpusi quyidagi kichik-kichik korpus (podkorpus)larni o‘z ichiga qamraydi:
1) chuqur annotatsiya (tahlil)langan korpus (bunda har bir gapning morfologik va sintaktik qurilishi uchun tahlil mavjud);
2) rus va ingliz matnlarining parallel korpusi (bunda rus yoki ingliz tillaridagi so‘z va so‘z birikmalarning tarjimalarini topish mumkin bo‘ladi);
3) dialektal matnlar korpusi (bunda Rossiyaning turli hududlarida grammatik xususiyatlariga ko‘ra saqlangan dialektik matnlar mavjud);
4) poetik matnlar korpusi (bunda she’riyatning nafaqat leksik va grammatik, balki uning turli janrlari (sonet, epigramma, amfibrax, ularning qofiya turlari) bilan bog‘liq jihatlar mavjud);
5) rus tilini o‘rganish korpusi (bunda asosiy e’tibor rus tilining maktab programmasiga yo‘naltirilgan);
6) og‘zaki nutq korpusi (bunda magnit tasmasiga yozib olingan ommaviy va xususiy og‘zaki matnlari va 1930-2000-yillardagi kinofilmlar transkript (talaffuz) matnlari mavjud) va b.
Xullas, korpus tilshunosligi, uning milliy shakllarini yaratish, shuningdek, mavjud tajribalardan kelib chiqib o‘zbek milliy korpusining nazariy va amaliy asoslarini ishlab chiqish, uni keng jamoatchilikka tadbiq qilish mutaxassislarning galdagi dolzarb vazifalaridan biridir. Natijada o‘zbek tili mumtoz va zamonaviy matnlari, turli janrlarda yaratilgan betakror durdona asarlar “ikkinchi hayot”ga yo‘llanma oladi va kelgusida o‘zbek tilining ham ko‘p ming (ikki yuz, besh yuz ming yoki million) so‘zli lug‘atlarini yaratish imkoni tug‘iladi.