Oldinga oʻralgan matn Matnlarni tahlil qilishda asosiy muammolardan biri hujjatdagi so‘zlarning ko‘pligidir. Tahlil qilish uchun bu so'zlarning terisi sifatida, yangi bilimlarni izlash uchun bir soat keskin o'sadi va koristuvachilarning yordamchilari bilan mamnun bo'lish ehtimoli yo'q. Shu bilan birga, matndagi barcha so'zlar ham to'g'ri ma'lumot bera olmasligi aniq. Qolaversa, tabiiy tilning bukilishi orqali formal jihatdan har xil so`zlar (toshcho sinonimlari) haqiqatda bir xil tushunchani bildiradi. Keyinchalik ma'lumotga ega bo'lmagan so'zlarni olib tashlash va o'quv dasturi ortidagi yaqinlarini yagona shaklga keltirish matnlarni tahlil qilishni sezilarli darajada tezlashtiradi. Usunennya tsikh muammolari matnni oldinga qayta ishlash bosqichida vykonuêtsya.
Ovoz vikoristovuyut shuning uchun turli xil ma'lumotga ega bo'lmagan so'zlarni qabul qiling va matnlarning jasurligini oshiring:
Ko'rinadigan svetofor. To'xtash so'zlari - qo'shimcha bo'lgan va hujjat haqida kam ma'lumotga ega bo'lgan so'zlar.
Stemming-morfologik o'rganish. Vín polagaê y teri so'zini normal shaklga o'zgartirdi.
L-grammasi morfologik tahlil qilish va to'xtatuvchini olib tashlash uchun muqobildir. Biz ma'lumotga ega bo'lmagan so'zlar sonini o'zgartirish muammosini buzmasdan matnni umumlashtirishga ruxsat beramiz;
Berilgan registr. Ushbu usul bilan barcha belgilarning katta yoki kichik harflarga tarjimasi.
Ushbu usullarning eng samarali bilimlari.
Matn qazib olish bo'limi boshlig'i Adabiyotlarda matnli hujjatlarni qo'shimcha tahlil qilish bilan bog'liq bo'lgan ko'plab amaliy vazifalar tasvirlangan. Bular Data Miningning klassik vazifalari: tasniflash, klasterlash va topshiriqlardagi matnli hujjatlar uchun koʻproq xosdir: avtomatik izohlash, buni tushunish uchun asosiylarini tushunish.
Tasniflash - ma'lumotlarni qidirish sohasidagi standart vazifa. Їїí usuli ê teri hujjatining belgilash bir êí̈ chi kílkoh zadalegíd zadalegíd categoríy, yakíh tsey hujjat yolg'on. Tasniflagichning o'ziga xosligi shundaki, shaxssiz tasniflovchi hujjatlar "zarba" uchun qasos olmasligini tan oladi, shuning uchun hujjatlardagi teri toifaning tayinlanganligini tasdiqlaydi.
Biz tasniflash boshlig'ini va hujjat mavzusini belgilash boshlig'ini hal qilamiz.
Hujjatlarni klasterlash usuli - ma'lum bir qat'iy multiplikator muhitida semantik jihatdan o'xshash hujjatlar guruhlarini avtomatik ravishda aniqlash. Guruhlar faqat hujjatlar tavsiflarining juftlik o'xshashligi asosida tuzilganligi va bu guruhlarning bir xil xususiyatlari oldindan berilmaganligi muhimdir.
Avtomatik xulosa (xulosa) yoga ma'nosini saqlab, matnni qisqartirish imkonini beradi. Vazifaning maqsadi - taklif etuvchi takliflarning belgilangan soni yoki butun matnga havola bo'yicha oldindan tuzilgan matn sonining yordami uchun koristuvach tomonidan tartibga solinadi. Natija matndagi eng muhim takliflarni o'z ichiga oladi.
Kalit so'zlarni tushunishning asosiy usuli (xususiyatlarni ajratib olish) matndan faktlar va dalillarni aniqlashdir. Vipadkivlarning ko'pchiligi ismlar va nomlar kabi tushunchalarga ega: odamlarning ismlari va ismlari, tashkilotlarning nomlari va boshqalar. O'rganish algoritmlarini lug'atlardan foydalanib, boshqalarni belgilash uchun maxsus atamalar va lingvistik naqshlarni aniqlash orqali tushunish mumkin.
Matn orqasida navigatsiya (matn asosidagi navigatsiya) stenografiyachilarga hujjatlar bo'ylab jim va mazmunli navigatsiya qilish imkonini beradi. Tse vikonuêtsya rahunok ídentifíkatsíí̈ kalit uchun ular orasida deyaky vídnosin tushunish.
Trend tahlili butun davr uchun hujjatlar to'plamidagi tendentsiyalarni aniqlash imkonini beradi. Bu tendentsiyani qaytarish mumkin, masalan, kompaniya manfaatlarining bozor segmentidan ikkinchisiga o'zgarishi.
Qidiruv assotsiatsiyasi ham Data Miningning asosiy vazifalaridan biridir. Berilgan hujjatlar to'plamining maqsadi uchun asosiy tushunchalar orasidagi assotsiativ g'oyalar aniqlanadi.
Ísnuê turli xil vazifalarni bajarish va ularni bajarish usullarini o'rganish. Bu matn tahlilining muhimligini isbotlaydi. Masofada, kimga farq qiladi, kelgusi vazifalarning qarorlari ko'rib chiqiladi: asosiylarini tushunish, tasniflash, klasterlash va avtomatik ko'rsatmalarni o'rganish.