Ma’lumotlar to’plami va ularning atributlari. Ma’lumotlar bazalari. Data Mining usullari va bosqichlari
Keng ma‘noda ma‘lumot tushunchasi faktlar, matnlar, chizmalar, rasmlar, ovozlar, analogli yoki raqamli video tasvirlarni o‘zida aks ettiradi.
Ma‘lumot o‘lchovlar, tajribalar, arifmetik va mantiqiy amallarni bajarish jarayonida olinishi mumkin.
Ma‘lumotlarni saqlash, uzatish va qayta ishlash qulay bo‘lishi uchun ularni ma‘lum bir obyektlar majmuasi shaklida tasvirlash kerak.
Obyektni atributlar to‘plami deb ta‘riflash mumkin. Obyekt yozuv, hodisa, misol, jadvalning qatori va h.k. bo‘lishi mumkin va ular ma‘lum bir o‘zgaruvchilar orqali namoyon etiladi.
Atribut obyektning xususiyatini ifodalovchi ma‘lumot yoki ma‘lumotlar majmuasidir.
O‘zgaruvchi – bir obyekt xususiyatlariga ko‘ra boshqa bir obyektni hosil qiluvchi tushunchadir.
Ma‘lumotlar tahlili davomida juda katta hajmdagi ma‘lumotlarni o‘rganish qimmatli jarayonlarni, ko‘p vaqt sarflanishini talab etishini hamda inson faktorlari hisobga olinsa ushbu jarayonda muqarrar xatoliklar yuz berishi mumkin.
Ma‘lumotlarning barcha to‘plamlarining ba‘zi bir qismlari to‘liq qarab chiqilib ya‘ni tanlanmalar asosida ulardan qiziqarli axborotlar olinib xulosa hosil qilinadi.
O‘lchovlar–aniqlangan qoidaga muvofiq o‘rganilayotgan obyektlar xususiyatlarining miqdoriy ko‘rsatkichidir.
Ma‘lumotlarni tayyorlanish jarayoni obyekt bilan emas uning xususiyatlari bilan o‘lchanadi [12].
Shkala–DMning ko‘p uskunalari boshqa manbalardan ma‘lumotlarni import qilishi davomida har bir o‘zgaruvchi uchun shkalalar turini tanlashi va kiruvchi hamda chiquvchi (belgili, sonli, diskretli va uzluksiz) o‘zgaruvchilar uchun ma‘lumotlar turini tanlash ko‘rsatkichidir. O‘lchovlarning besh turdagi shkalalari mavjud: nominal, tartibli, oraliqli, nisbiy va dixotomik.
Nominal shkala (nominal scale) – faqat kategoriyalardan tuziladigan shkaladir, uning ma‘lumotlari tartiblanmasligi mumkin va bu shkalalar ustida hyech qanday arifmetik harakatlarni o‘tkazib bo‘lmasligi mumkin.
Bu shkala nomlanishlar, kategoriyalar, obyektlarning klassisfikasiyasi va tartiblanishi yoki ba‘zi belgilar bo‘yicha kuzatishlar uchun quyilgan nomlardan tuziladi.
Unga misol: kasblar, yashash joyi, oilaviy ahvoli va shu kabilar.
Bu shkalalar uchun faqat tenglik (=) va teng emas (≠) operasiyalari qo‘llaniladi.
Tartiblangan shkala (ordinal scale) – obyektni nisbiy holatini belgilash uchun xizmat qiladigan obyektlardan o‘zlashtiriladigan sonlar shkalasidir, lekin ular orasidagi farq kattaliklari mavjud emas.
Shkala o‘lchovlarga o‘zgaruvchilar qiymatlarini safga tizish (ranjirovat) imkoniyatini beradi. Tartibli shkaladagi o‘lchovlar faqat keladigan kattaliklarning tartiblanganligi haqidagi informasiyalardan tuziladi, lekin «bir kattalik boshqasidan qanchalik katta» yoki «u qanchalik boshqasidan kichik» deb mulohaza yuritishga yo‘l qo‘ymaydi.
Tartiblangan shkalaga misol: guruhning musobaqada olgan o‘rni (1-, 2-, 3-), talabaning qobiliyatlik reytingidagi tartib raqami (1-, 15- va h.k.) keltirilgan bo‘lsin. Bu bilan bir talabaning boshqasidan qanchalik qobiliyatligini aniqlab bo‘lmaydi, uning faqat reytingdagi raqamigina ma‘lum xolos.
Bu shkalalar uchun faqat tenglik (=), teng emas (≠), katta (>), kichik (<) operasiyalari ishlatish mumkin.
Oraliqli shkala (interval scale) – bu shkala ikki kattlik orasidagi farqni topishga ruxsat beradi, nominal va tartibli shkalalarning xususiyatlariga ega bo‘ladi, hamda belgilarning miqdoriy o‘zgarishlarini aniqlashga ruxsat beradi.
Nominal va tartibli shkalalar diskret, oraliqli shkala esa uzluksiz bo‘ladi. U belgining aniq o‘lchovlarini amalga oshirishga ruxsat beradi va qo‘shish, ayirish, ko‘paytirish, bo‘lish arifmetik operasiyalari bajariladi.[36]
Bu shkala uchun faqat tenglik (=), teng emas (≠), katta (>), kichik (<), qo‘shish (+), ayirish (-) operasiyalaridan foydalaniladi.
Nisbiy shkala (ratio scale) – aniqlangan sanoq boshida va shkalalar qiymatlari orasidagi munosabatlarda mavjud bo‘lgan shkaladir[11,12].
Ma‘lumotlar bazalari. Ma‘lumotlar bazasi (Database) – bu ma‘lumotlarning tashkil etilishi va saqlanishining o‘ziga xos elektron ko‘rinishidir.
Tashkil etilishining o‘ziga xosligi – bu ma‘lumotlarni qandaydir aniq usullar bilan tashkil etilishidir, bu usullar ularni qidirish, bir yoki bir nechta ilovalarning murojaat etishini yengillashtiradi, hamda ma‘lumotlarni bunday tashkil etish bilan ularning ortiqchaligini kamaytirish ko‘zda tutiladi.
MB informasion texnologiyalarning turli ko‘rinishlaridan biri hamda ma‘lumotlarni saqlash formasi hisoblanadi.
MBni yaratishdan maqsad EHMda ma‘lumotlarni dasturiy ta‘minotga, texnik qo‘llanilish muhitiga va fizik joylashuviga bog‘liq bo‘lmaydigan tizimlarini qurishdan iboratdir. Ma‘lumotlarning bu tizimlarini qurish ma‘lumotlarning bir-biriga zid emasligi va yaxlitligini ta‘minlashi kerak. MBni loyihalashda uni ko‘pmaqsadli foydalanish mo‘ljallanadi
Ma‘lumotlar sxemasi – ma‘lumotlarni maxsuslashgan tilda tasvirlanadigan va MBBT da qayta ishlanadigan mantiqiy strukturasini bildiradi.
Foydalanuvchi sxemasi – jadval maydonining bir variantidagi tartibi aniq foydalanuvchilar uchun fiksirlanadi.
Ma‘lumotlar bazasini boshqarish tizimi(MBBT)- bu MBni tashkil etilishini, saqlanishini, yaxlitligini, o‘zgarishlarni kiritish, o‘qish va informasiyalarni xavfsizligini nazorat qiluvchi dasturiy ta‘minotdir.
MBBT jadval strukturalarini qurish va ularni ma‘lumotlarga to‘ldirish yordamida u yoki bu MB olinadigan qolipni taqdim etadi.
Relyasion ma‘lumotlar bazasini boshqarish tizimi – bu relyasion modellar asosidagi MBBTdir[11].
Ma‘lumotlarning relyasion modelida har qanday ko‘rinishdagi ma‘lumotlar relyasion jadvallarda (o‘ziga xos turdagi ikki o‘lchovli jadvallarda) yig‘iladi. Relyasion ma‘lumotlar bazasini boshqarish tizimidan ma‘lumotlar omborini qurish uchun foydalaniladi.
Quyida ma‘lumotlarning bir nechta sinflanishalrini keltiramiz: Relyasion ma‘lumotlar – bu relyasion bazadagi ma‘lumotlardir.
Ko‘p o‘lchovli ma‘lumotlar– bu OLAP ning kublarida keltiriladigan ma‘lumotlar.
O‘lchov yoki o‘q– ko‘p o‘lchovli ma‘lumotlarda bir yoki boshqa tip bo‘yicha ko‘p o‘lchovli MBni tizimlashtirishga xizmat qiladigan ma‘lumotlarni yig‘ishdir.
Doimiylik mezoni bo‘yicha masalalarni yechilishida ma‘lumotlarning qiymatlari quyidagicha bo‘lishi mumkin:
o‘zgaruvchan;
doimiy;
sharlti-doimiy
O‘zgaruvchan ma‘lumotlar – masalalarni yechish jarayonida qiymatlari o‘zgarib boradigan ma‘lumotlardir.
Doimiy ma‘lumotlar - masalalarni yechish jarayonida qiymatlarini saqlab qoladigan va tashqi faktorlarga bog‘liq bo‘lmaydigan ma‘lumotlardir.
Shartli-doimiy ma‘lumotlar – o‘z qiymatlarini gohida o‘zgartirib turadi, lekin bu o‘zgarishlar masalaning yechilishidagi faktorlarga bog‘liq bo‘lmay, tashqi faktorlar ta‘sirida yuzaga keladi[11].
Ma‘lumotlar shunday funksiyalarga bog‘liq bo‘ladiki, ularning vazifalari yordamida ma‘lumotlar – ma‘lumotnomali, tezkor, arxivli bo‘lishi mumkin.
Ma‘lumotlarni – davriy ma‘lumotlar va ayni vaqtdagi ma‘lumotlarga bo‘linishiga olib keladi. Bu bo‘linish axborotlarni yig‘ish sistemalarini loyihalashtirish uchun muhim hisoblanadi.
Davriy ma‘lumotlar – qandaydir vaqt oralig‘ini tavsiflaydi. Bu ma‘lumotlarga misol sifatida korxonaning bir oylik foydasi, oyning o‘rtachi harorati kabilarni qarash mumkin.
Ayni vaqtdagi ma‘lumotlar – bir nechta o‘zgaruvchilarning aniq paytdagi qiymatlarini taqdim etadi.
Ma‘lumotlar birlamchi va ikkilamchi bo‘ladi. Ikkilamchi ma‘lumotlar aniqlangan hisoblashlar natijasida birlamchi ma‘lumotlarga o‘zgaradigan ma‘lumotlardir. Ikkilamchi ma‘lumotlar qoidadagidek, saqlanayotgan axborotlar hajmini kengayishi hisobiga foydalanuvchining so‘roviga tezkor javob olishga olib keladi[12].
Metama‘lumotlar – bu ma‘lumotlar haqidagi ma‘lumotlardir. Uning tarkibiga kataloglar, ma‘lumotnomalar, reyestrlarni kiritishimiz mumkin.
Metama‘lumotlar – ma‘lumotlar tarkibidagi xabarlarni tashkil etadi; tuzilishi, kelib chiqishi, joylashishi, sifati, tasvirlanishi, formatlari va shakllari, murojaat etish mumkinligi shartlari, olinishi va foydalanilishi va boshqalar.
Ma‘lumotlarni saqlanish joyida qo‘llaniladigan metama‘lumotlar uning o‘rnatilishi va foydalanilishi uchun zaruriy axborotlardan tuziladi. Ular biznes- metama‘lumotlar va tezkor metama‘lumotlarga bo‘linadi.
Biznes-metama‘lumotlar – biznes-terminlari va ta‘riflari, ma‘lumotlarning belgilari va saqlanish xizmatida to‘lov qoidalaridan tashkil etiladi.
Tezkor metama‘lumotlar – ma‘lumotlarni saqlanishi vaqtida yig‘ilgan axborotlardir:
Ma‘lumotlarning ko‘chirilishi va o‘zgartirilishini;
Ma‘lumotlardan foydalanish haq-huquqi (faollashtirish, arxivlangan va o‘chirilgan);
Monitoring ma‘lumotlari - statistika foydalanadigan xatoliklar haqidagi xabar va boshqalar[12].
Ma‘lumotlar bazasi texnologiyasining rivojlanishi 1968 yilda IBM firmasining birinchi MBBT IMS tizimi ishlab chiqarishga kiritilgan. 1975 yilda ma‘lumotlarning tarmoqli modeli uchun hozirgacha asos bo’lib xizmat qiladigan ma‘lumotlar bazasi tizimining nazariyasida bir qator fundamental tushunchalarni aniqlaydigan ma‘lumotlarni qayta ishlash tizimining tillari bo’yicha assotsiatsiyasining birinchi standarti – Conference of Data System Languages (CODASYL) hisoblanadi. Ma‘lumotlar bazasining keyingi rivojlanishiga ma‘lumotlarning relyasion modelining yaratuvchisi hisoblanadigan amerikalik matematik E.F. Koddning hissasi katta.
1980 yillar bu vaqt mobaynida tadqiqotchilar MB sini qurishning yo’nalishida yangi qurilishni va unga ruxsatli kirishni ta‘minlashni tadqiq etadilar. Bu izlanishlarning maqsadi ma‘lumotlarni yanada oddiy modellashtirish uchun relyasion prototipni olish hisoblanadi. Natijada 1985 yilda SQL deb
ataladigan til yaratildi. Bugungi kunda barcha MBBT lar asosan shu interfeysni ta‘minlaydi.
1990 yillar ma‘lumotlarning spetsifik turlari paydo bo’ladi – ―grafli tasvir‖, ―ovoz‖, ―hujjat‖, ―xarita‖. SQL tiliga vaqt uchun ma‘lumotlar turlari, vaqtlar intervali, belgilarni tasvirlashning 2 baytli belgili qatori qo’shilgan. Data Mining texnologiyasi, ma‘lumotlar saqlanadigan joy, multimediyali ma‘lumotlar bazasi va ma‘lumotlarning web-bazalari paydo bo’ldi.
Data Mining ning paydo bo’lishi va rivojlanishi turli faktrlarga asoslangan, ularning asosiylari quyidagilar hisoblanadi:
apparatli va dasturiy ta‘minotning mukammalligi;
ma‘lumotlarni saqlash va yozish texnologiyasining mukammalligi; retrospektiv ma‘lumotlarning katta sonini yig’ish;
axborotlarni qayta ishlash algoritmlarining mukammalligi[12].
Data Mining uslublari va bosqichlari. DMning asosiy xossasi bu – keng matematik instrumentlarni (avvalgi statistik tahlildan hozirgi yangi kibernetik uslublargacha bo‘lgan) birgalikda olib borish va IT sohasidagi yutuqlarga erishish. DM texnologiyasida qat‘iy formallashgan uslublar va uslublarning formallashmagan tahlillari birlashadi.
DM ning uslublari va algoritmlariga quyidagilar aloqador bo‘ladi: sun‘iy neyron tarmoqlari, qaror yoki yechimlar daraxti, simvolli qoidalar, qo‘shniga yaqinlashish va k ta yaqin qo‘shni uslublari, tayanch vektorlar uslubi, bayes tarmoqlari, chiziqli regressiya, korrelyasion-regression tahlil; klaster tahlilida iyerarxik uslublar, klaster tahlilida iyerarxik bo‘lmagan uslublar, shu bilan birga k-o‘rtacha va k-mediana algoritmlari; assosiyativ qoidalarni qidirish uslublari, shu bilan birga Aprior algoritmi; chegaralangan perebor uslubi, evolyusion dasturlash va genetik algoritmlar, ma‘lumotlarni vizuallashtirishning har xil turdagi uslublari va boshqa uslublar to‘plamlari[12].
DM texnologiyalarida ishlatiladigan aksariyat analitik uslublar - bu aniq bo‘lgan matematik algoritmlar va uslublardir. Ularning qo‘llanilishidagi yangiliklar ularga texnikoviy va dasturiy muhitlarning shartli ravishda paydo
bo‘ladigan imkoniyatlari u yoki bu aniq muammolarni yechishda foydalanadigan imkoniyatlarni vujudga keltiradi. Ta‘kidlab o‘tish kerakki, DMning aksariyat uslublari sun‘iy intellekt nazariyasi doirasida ishlab chiqilgan. Data Mining ni ishlatish sohasi chegaralanmagan – u hamma erda mavjud.
Ammo birinchi navbatda Data Mining metodlariga hozirgi vaqtda axborotli ma‘lumotlar ombori (Data Warehousing) ga asoslangan loyihalarni ishlab chiqarayotgan tijorat kompaniyalarining qiziqishi ortdi. Bunday tashkilotlarning tajribasi shuni ko’rsatdiki, Data Mining ni ishlatishdan unumdorlik 1000% ga ko’tariladi. Masalan, birinchi marta 350 dan 750 ming dollargacha sarflashlar keyinchalik 10-70 marta ko’p foyda bergan. 20 mln. dollarlik loyiha 4 oyda harajatlarini qoplagan. Boshqa misol - Data Mining ni qo’llash natijasida Buyuk Britaniyadagi universamlar tarmog’i yillik 700 ming dollar foyda ko’ra boshlagan[12].
Data Mining boshliqlar va analitiklarning kunlik faoliyati uchun katta ahamiyatga ega. Ishbilarmon odamlar Data Mining metodlari yordamida katta muvaffaqiyatlarga erishishlari mumkinligini tushunib etdilar. Data Mining ning ba‘zi biznes-ilovalariga ta‘rif beramiz.
Data Mining amaliy statistika, tasvirlarni tanish, sun‘iy intellekt usullari, ma‘lumotlar bazasi nazariyasi va bularning rivojlanishi natijasida paydo bo’lgan va rivojlanayotgan ko’p tartibli soha hisoblanadi. Bundan esa Data Mining sistemalarida qo’llaniladigan usullar va algoritmlar ko’pchilikni tashkil etadi. Ko’pgina bunday tizimlar o’z ichiga bir nechta yondashuvlarni birlashtiradi. Shunga qaramasdan, qoidaga ko’ra, har bir tizimda qandaydir kalitli komponenta bo’lib, unga asosiy talab qo’yiladi. Quyida ish asosida ko’rsatilgan kalitli komponentalar sinflanishi keltirilgan. Ajratilgan sinflarga qisqacha ta‘rif beriladi[12].
1.3-rasm. Data Mining — ko’p tartibli soha
Xozirgi kunda mavjud Data Mining uchun mahsulotlar sifatida quyidagilarni qarashimiz mumkin.
1.4-rasm. Data Mining uchun taniqli mahsulotlar
Statistika – bu ma‘lumotlarni yig’ish usullari, ularni qayta ishlash va o’rganilayotgan holatlarda qonuniyatni ko’rsatish uchun tahlil etish haqidagi fandir[12].
Statistika – tadqiqotlarni rivojlantirish, ma‘lumotlarni yig’ish, ularni tasvirlash va kengaytirish hamda bu ma‘lumotlar asosida natijalarni olish va tahlil qilish usullari to’plami hisoblanadi.
Statistika izlanishlar yoki tadqiqotlar natijasida olingan ma‘lumotlarga asoslanadi. Keyingi boblardan biri ma‘lumotlar tushunchasiga bag’ishlanadi.
Mashinali o’qitish tushunchasi - yagona mashinali o’qitish ta‘rifi hozirgi kunda yo’q. Mashinali o’qitishni Yangi bilimlarni olish jarayoni kabi tavsiflash mumkin. Mitchell 1996 yilda quyidagi ta‘rifni berdi: ―Mashinali o’qitish – bu ish vaqtida avtomatik Yaxshilanadigan kompyuter algoritmlarini o’rgatadigan fandir‖.
Sun‘iy intellekt – ilmiy yo’nalish bo’lib, uning sohasida intellektual hisoblanadigan inson ish faoliyati ko’rinishidagi apparatli yoki dasturli modellashtirish masalalari qo’yiladi va echiladi.
Intellekt tushunchasi (intelligence) lotincha intellectus so’zidan kelib chiqqan bo’lib, aql, faoliyat, ong, insonning o’ylash imkoniyati degan ma‘noni bildiradi.
Shunga mos holda, sun‘iy intellekt (AI, Artifical Intelligence) avtomatik tizim xususiyatlari sifatida inson intellektining alohida funksiyalarini o’zida olishni bildiradi. Sun‘iy intellekt deb inson prerogativi (ayrim huquqlari) hisoblanadigan amaliy funksiyalarni bajaruvchi intellektual tizim xususiyatlariga aytiladi.
Data Mining ni shakllantiradigan har bir yo’nalish o’zining xususiyatlariga ega. Ularning ba‘zilarini taqqoslaymiz.
Statistika, mashinali o’qitish va Data Mining ni taqqoslash va boshqalar.
Statistika. Data Mining ga ko’ra nazariyaga asoslanadi. Gipotezni tekshirishda muhimroq.
Mashinali o’qitish. Yanada evristik. O’qitish agentlari ishini yaxshilashga mo’ljallangan.
Data Mining. Nazariya va evristikaning integratsiyasi. O’z ichiga ma‘lumotlarni tozalash, o’qitish, integratsiya va natijalarni vizuallashtirishni oladi.
Data Mining tushunchasi MB texnologiyasi va keyingi ma‘ruzalarda ko’rib chiqiladigan ma‘lumotlar tushunchasi bilan bog’langan.
Data Mining – bu yopiq qonuniyatdagi (axborotlar shablonlari) ma‘lumotlarni izlashga asoslangan echimlarni qabul qilish jarayonidir.
Data Mining texnologiyasini shu yo’nalishning asoschilaridan biri – Grigoriy Piatetskiy-Shapiro (Grigoriy Piatetskiy-Shapiro) aniq ta‘riflab bergan.
Data Mining – bu xom ashyo ma‘lumotlarida hozircha noma‘lum, noaniq, amaliy jihatdan inson ish faoliyatining turli sohalarida echimlarni qabul qilish uchun zarur bo’lgan amaliy jihatdan foydali va bilimlar interpretatsiyasi uchun mumkin bo’lgan jarayondir[12].
Dostları ilə paylaş: |