Matnli hujjatlarning tasnifi Matnli hujjatlarning tasnifi, taqdim etilgan hujjatdagi ob'ektlarning turli tasniflaridagi kabi, quyidagi sinflardan biriga qadar. Ko'pincha yuzlab matnli hujjatlarning tasnifi turkumlash yoki rubrikatsiya deb ataladi. Ko'rinib turibdiki, bu nomlar hujjatlarni kataloglar, toifalar va sarlavhalar uchun tizimlashtirish vazifasiga o'xshaydi. Katalogning tuzilishi kimga qarab, bir darajali va ko'p darajali (íoooorxinoínoí) bo'lishi mumkin.
Rasmiy ravishda, matnli hujjatlarni tasniflash vazifasi ko'paytmalar to'plami bilan tavsiflanadi.
Ushbu ma'lumotlarga asoslanib, tasniflash vazifasi ko'chmas mulk toifasining eng muhim toifasida bo'lgani kabi, yakuniy hujjat uchun nomsiz tartibni keltirib chiqarishi kerak.
Klassifikasiyaning Belshist usuli Matn shunday nashtnovani bo'yicha ruxsat etilgan, pusk, pusk bir toifaga chiqish, Mistyati Qidiruv (Abo so'zlari telefon qilinadi), men bir xil ionlik bilan bunday tanishishning abinligiman.
Bunday shaxssiz belgi ko‘pincha lug‘at deyiladi, chunki u leksemalar yordamida shakllanadi, chunki u turkumni tavsiflovchi so‘z va/yoki iboralarni o‘z ichiga oladi.
Shuni ta'kidlash kerakki, ushbu belgilar to'plami matnli hujjatlarni Data Mining-da ob'ekt tasnifi ko'rinishida tasniflash uchun ishlatiladi, chunki ular atributlar to'plami bilan tavsiflanadi.
Hujjatni berish to'g'risidagi qaror "c" toifasigacha bo'lgan toshlar asosida qabul qilinadi
Tasniflash usullarining boshlig'i bunday belgilarni tanlash va qoidalarni shakllantirish eng yaxshisi ekanligiga asoslanadi, buning asosida hujjatni rubrikaga kiritish to'g'risida qaror qabul qilinadi.
Matn ma'lumotlarini tahlil qiling Maxsus Oracle - Oracle Text2
Oracle 7.3.3 versiyasidan boshlab, Oracle mahsulotlarining ajratib bo‘lmaydigan qismining matn tahlilini oling. Oracle-da qi koshti o'sib ulg'ayib, yangi nomni oldi - Oracle Text-dasturiy ta'minot majmuasi, ma'lumotlar bazasiga integratsiyalashgan bo'lib, u tuzilmagan matnlar uchun qo'llaniladigan so'rovlar bilan samarali ishlash imkonini beradi. Matnni qayta ishlashda relyatsion ma'lumotlar bazalari bilan ishlash uchun koristuvachev tomonidan berilgan imkoniyatlardan foydalanish kerak bo'ladi. Zocrema, matnni qayta ishlash uchun dasturlarni yozishda SQL-dan foydalanish mumkin bo'ldi.
Oracle Text yo'naltirilgan asosiy vazifalar - hujjatlarni o'z maqsadlari uchun - so'zlar va iboralar uchun qidirish, agar kerak bo'lsa, bir nechta mantiqiy operatsiyalar bilan birlashtirilishi mumkin. Qidiruv natijalari ma'lum hujjatlardagi so'zlarning chastotasini yaxshilash bo'yicha ahamiyati bo'yicha tartiblangan.
Koshti víd IBM - Text1 uchun Intelligent Miner
Kompaniyaning mahsuloti IBM Intelligent Miner for Text - bu buyruq satridan yoki skriptlardan, u yoki bu boshqasidan ishga tushirilishi mumkin bo'lgan o'nta yordam dasturlari to'plami. Matn ma'lumotlarini tahlil qilish vazifasi uchun tizim boshqa yordamchi dasturlar bilan birlashtirilishi kerak.
IBM Intelligent Miner for Text doimiy ravishda o‘zining asboblar to‘plamini kengaytirib boradi, ular asosan butun mahsulotga xos bo‘lgan axborotni qidirish mexanizmlariga asoslanadi. Tizim bir qator asosiy komponentlardan iborat bo'lib, ular matnni qazib olish texnologiyasi o'rtasida mustaqil ahamiyatga ega bo'lishi mumkin:
Zasobi SAS instituti - matn konchisi
Amerikaning SAS Institute kompaniyasi maktub promolarida grammatik va og'zaki chiziqlarni moslashtirish uchun SAS Text Miner tizimini chiqardi. Text Miner ham universaldir, parchalar turli formatdagi matnli hujjatlar bilan ishlashi mumkin - ma'lumotlar bazalarida, fayl tizimlarida va Internetdan uzoqda.
Text Miner SAS Enterprise Miner paketining o'rtasida matnni mantiqiy qayta ishlashni ta'minlaydi. Tse koristuvachlarga ma'lumotlarni tahlil qilish jarayonini takomillashtirish, tuzilmagan matnli ma'lumotlarni ma'lumotlarning aniq tuzilishi bilan birlashtirish imkonini beradi, masalan, asr, daromad va vaucher ichimlikning tabiati.