Malumotlarni mining qilish

Yüklə 2,04 Mb.

səhifə	1/6
tarix	17.09.2023
ölçüsü	2,04 Mb.
	#144541

1 2 3 4 5 6

MALUMOTLARNI MINING QILISH
Reja

1. Data Mining nima

2. Ma'lumotlarni qidirish vazifalarining tasnifi
3. Tasniflash va regressiya muammosi
4. Assotsiatsiya qoidalarini izlash vazifasi
5. Klasterlash muammosi
6. Data Miner xususiyatlari Statistika 8
7. Imkoniyatlar tahlil STATISTICA Data Miner
8. Data Minin-da ishlashga misol
9. Hisobotlar va xulosalar yarating
10. Ma'lumotni saralash
11. Turar-joy uchastkalari narxlarini tahlil qilish
12. Omon qolish bashorati tahlili
13. Xulosa

Data Mining nima

Zamonaviy kompyuter atamasi Data Mining "axborot qazib olish" yoki "ma'lumotlar qazib olish" deb tarjima qilingan. Ko'pincha Data Mining bilan bir qatorda Knowledge Discovery ("bilimlarni kashf etish") va Data Warehouse ("ma'lumotlar ombori") atamalari topiladi. Data Miningning ajralmas qismi bo'lgan ushbu atamalarning paydo bo'lishi ma'lumotlarni qayta ishlash va saqlash vositalari va usullarini ishlab chiqishning yangi bosqichi bilan bog'liq. Shunday qilib, Data Mining maqsadi katta (juda katta) hajmdagi ma'lumotlarda yashirin qoidalar va naqshlarni aniqlashdir.

Gap shundaki, inson ongining o'zi turli xil ma'lumotlarning ulkan massivlarini idrok etishga moslashmagan. O'rtacha, bir kishi, ba'zi shaxslar bundan mustasno, hatto kichik namunalarda ham ikki yoki uchtadan ortiq munosabatlarni qo'lga kirita olmaydi. Ammo uzoq vaqt davomida ma'lumotlarni tahlil qilish uchun asosiy vosita rolini o'ynagan an'anaviy statistika ham real hayotdagi muammolarni hal qilishda muvaffaqiyatsizlikka uchraydi. U ko'pincha xayoliy qiymatlar bo'lgan namunaning o'rtacha xarakteristikalari bilan ishlaydi (mijozning o'rtacha to'lov qobiliyati, agar xavf funktsiyasi yoki yo'qotish funktsiyasiga qarab, mijozning to'lov qobiliyati va niyatlarini bashorat qilish kerak bo'lganda; o'rtacha signal intensivligi, siz xarakteristikalari va signal cho'qqilari fon manfaatdor esa, va hokazo. d.).
Shuning uchun matematik statistika usullari asosan oldindan tuzilgan gipotezalarni sinab ko'rish uchun foydalidir, gipotezani aniqlash esa ba'zan ancha murakkab va ko'p vaqt talab qiladigan vazifadir. Zamonaviy Data Mining texnologiyalari heterojen ko'p o'lchovli ma'lumotlarning har qanday bo'laklariga xos bo'lgan naqshlarni (naqshlarni) avtomatik ravishda izlash uchun ma'lumotlarni qayta ishlaydi. Onlayn tahliliy ma'lumotlarni qayta ishlashdan (OLAP) farqli o'laroq, Data Mining-da gipotezalarni shakllantirish va noodatiy (kutilmagan) naqshlarni aniqlash yuki odamdan kompyuterga o'tkaziladi. Ma'lumotni qazib olish - bu bitta emas, balki ko'p sonli turli xil bilimlarni kashf qilish usullarining kombinatsiyasi. Usulni tanlash ko'pincha mavjud ma'lumotlar turiga va qanday ma'lumotlarni olishga harakat qilayotganingizga bog'liq. Bu erda, masalan, ba'zi usullar: assotsiatsiya (birlashtirish), tasniflash, klasterlash, vaqt seriyalarini tahlil qilish va prognozlash, neyron tarmoqlar va boshqalar.
Keling, ta'rifda berilgan kashf qilinadigan bilimlarning xususiyatlarini batafsil ko'rib chiqaylik.
Bilim yangi, ilgari noma'lum bo'lishi kerak. Foydalanuvchiga allaqachon ma'lum bo'lgan bilimlarni kashf qilish uchun sarflangan harakatlar o'zini oqlamaydi. Shuning uchun, bu yangi, ilgari noma'lum bo'lgan bilimdir.
Bilim ahamiyatsiz bo'lishi kerak. Tahlil natijalari yashirin bilimlarni tashkil etuvchi ma'lumotlarda aniq bo'lmagan, kutilmagan naqshlarni aks ettirishi kerak. Oddiyroq usullar bilan (masalan, vizual ko'rish) olinishi mumkin bo'lgan natijalar kuchli Data Mining usullaridan foydalanishni oqlamaydi.
Bilim amaliy jihatdan foydali bo'lishi kerak. Topilgan bilimlar, shu jumladan yangi ma'lumotlarga nisbatan, etarlicha yuqori darajadagi ishonchlilik bilan qo'llanilishi kerak. Foydaliligi shundaki, bu bilim uni qo'llashda qandaydir foyda keltirishi mumkin.
Bilim inson tushunchasi uchun ochiq bo'lishi kerak. Topilgan naqshlar mantiqan tushuntirilishi kerak, aks holda ular tasodifiy bo'lish ehtimoli mavjud. Bundan tashqari, kashf etilgan bilimlar inson tushunadigan shaklda taqdim etilishi kerak.
Data Mining-da modellar olingan bilimlarni ifodalash uchun ishlatiladi. Modellarning turlari ularni yaratish usullariga bog'liq. Eng keng tarqalganlari: qoidalar, qarorlar daraxtlari, klasterlar va matematik funktsiyalar.
Data Mining ko'lami cheklanmagan - Data Mining har qanday ma'lumot mavjud bo'lgan joyda kerak bo'ladi. Ko'pgina bunday korxonalar tajribasi shuni ko'rsatadiki, Data Mining-dan foydalanish rentabelligi 1000% ga yetishi mumkin. Masalan, 350 dan 750 ming dollargacha bo'lgan dastlabki xarajatlardan 10-70 baravar yuqori iqtisodiy samara haqida xabarlar mavjud. 20 million dollarlik loyiha haqida maʼlumot berilgan, u bor-yoʻgʻi 4 oyda oʻzini oqladi. Yana bir misol - yiliga 700 000 dollar tejash. Buyuk Britaniyadagi supermarketlar tarmog'ida Data Mining joriy etish orqali. Ma'lumotlarni qidirish menejerlar va tahlilchilar uchun ularning kundalik faoliyatida katta ahamiyatga ega. Ishbilarmonlar Data Mining usullari yordamida sezilarli raqobatdosh ustunliklarga ega bo'lishlari mumkinligini tushundilar.

Ma'lumotlarni qidirish vazifalarining tasnifi

DataMining usullari tahlilchi duch keladigan ko'plab muammolarni hal qilishga imkon beradi. Ulardan asosiylari: tasniflash, regressiya, assotsiatsiya qoidalarini izlash va klasterlash. Quyida ma'lumotlarni tahlil qilishning asosiy vazifalarining qisqacha tavsifi keltirilgan.

1) Tasniflash vazifasi ob'ektning xususiyatlariga ko'ra sinfini aniqlashga qisqartiriladi. Shuni ta'kidlash kerakki, bu masalada ob'ektni belgilash mumkin bo'lgan sinflar to'plami oldindan ma'lum.
2) Regressiya vazifasi, xuddi tasniflash vazifasi kabi, ob'ektning ma'lum xususiyatlaridan kelib chiqib, uning ayrim parametrlarining qiymatini aniqlash imkonini beradi. Tasniflash masalasidan farqli o'laroq, parametrning qiymati cheklangan sinflar to'plami emas, balki haqiqiy sonlar to'plamidir.
3) Assotsiatsiya vazifasi. Assotsiatsiya qoidalarini qidirishda maqsad ob'ektlar yoki hodisalar o'rtasidagi tez-tez bog'liqliklarni (yoki assotsiatsiyalarni) topishdir. Topilgan bog'liqliklar qoidalar ko'rinishida taqdim etilgan va tahlil qilingan ma'lumotlarning mohiyatini yaxshiroq tushunish uchun ham, voqealar sodir bo'lishini bashorat qilish uchun ham ishlatilishi mumkin.
4) Klasterlashning vazifasi mustaqil guruhlar (klasterlar) va ularning xususiyatlarini tahlil qilinayotgan ma'lumotlarning butun majmuasida izlashdan iborat. Ushbu muammoni hal qilish ma'lumotlarni yaxshiroq tushunishga yordam beradi. Bundan tashqari, bir hil ob'ektlarni guruhlash ularning sonini kamaytirishga va natijada tahlilni osonlashtirishga imkon beradi.
5) Ketma-ket naqshlar - vaqt bilan bog'liq bo'lgan hodisalar o'rtasida qonuniyatlarni o'rnatish, ya'ni. Agar X voqea sodir bo'lsa, Y hodisasi ma'lum vaqtdan keyin sodir bo'lishiga bog'liqlikni aniqlash.
6) og'ishlarni tahlil qilish - eng xarakterli bo'lmagan naqshlarni aniqlash.
Sanab o'tilgan vazifalar maqsadiga ko'ra tavsiflovchi va bashoratli bo'linadi.
Ta'riflash vazifalari tahlil qilinayotgan ma'lumotlarni tushunishni yaxshilashga qaratilgan. Bunday modellardagi asosiy nuqta - natijalarning inson idroki uchun qulayligi va shaffofligi. Ehtimol, topilgan naqshlar o'rganilayotgan aniq ma'lumotlarning o'ziga xos xususiyati bo'lib, boshqa joyda topilmaydi, lekin u hali ham foydali bo'lishi mumkin va shuning uchun ma'lum bo'lishi kerak. Ushbu turdagi muammolar klasterlash va assotsiatsiya qoidalarini qidirishni o'z ichiga oladi.
Bashoratli masalalarni yechish ikki bosqichga bo'linadi. Birinchi bosqichda ma'lum natijalarga ega bo'lgan ma'lumotlar to'plamiga asoslangan model quriladi. Ikkinchi bosqichda u yangi ma'lumotlar to'plamiga asoslangan natijalarni bashorat qilish uchun ishlatiladi. Bunday holda, albatta, qurilgan modellarning iloji boricha aniq ishlashi talab qilinadi. Ushbu turdagi muammolar tasniflash va regressiya muammolarini o'z ichiga oladi. Bu, shuningdek, assotsiatsiya qoidalarini topish muammosini o'z ichiga oladi, agar uni hal qilish natijalaridan ma'lum voqealar sodir bo'lishini taxmin qilish uchun foydalanish mumkin bo'lsa.
Muammolarni hal qilish usullariga ko'ra ular nazorat ostida o'qitish (o'qituvchi bilan o'qitish) va nazoratsiz ta'lim (o'qituvchisiz o'rganish) ga bo'linadi. Bu nom ingliz tilidagi adabiyotlarda tez-tez ishlatiladigan va barcha Data Mining texnologiyalariga ishora qiluvchi Machine Learning (mashinalarni o'rganish) atamasidan kelib chiqqan.
Nazorat ostida o'qitishda ma'lumotlarni tahlil qilish muammosi bir necha bosqichda hal qilinadi. Birinchidan, har qanday Data Mining algoritmidan foydalanib, tahlil qilingan ma'lumotlarning modeli - klassifikator quriladi. Keyin klassifikator o'qitiladi. Boshqacha aytganda, uning ish sifati tekshiriladi va agar u qoniqarsiz bo'lsa, tasniflagich qo'shimcha ravishda o'qitiladi. Bu talab qilinadigan sifat darajasiga erishilgunga qadar yoki tanlangan algoritm ma'lumotlar bilan to'g'ri ishlamasligi yoki ma'lumotlarning o'zi aniqlanishi mumkin bo'lgan tuzilishga ega emasligi aniq bo'lgunga qadar davom etadi. Ushbu turdagi muammolar tasniflash va regressiya muammolarini o'z ichiga oladi.
Nazoratsiz ta'lim yirik do'konda xaridorlar tomonidan amalga oshirilgan xaridlar naqshlari kabi tavsifiy naqshlarni aniqlaydigan vazifalarni birlashtiradi. Shubhasiz, agar bu naqshlar mavjud bo'lsa, unda model ularni ifodalashi kerak va uni o'rganish haqida gapirish o'rinli emas. Shuning uchun nom - nazoratsiz o'rganish. Bunday muammolarning afzalligi tahlil qilingan ma'lumotlar haqida oldindan ma'lumotga ega bo'lmasdan ularni hal qilish imkoniyatidir. Bularga klasterlash va assotsiatsiya qoidalarini qidirish kiradi.

Tasniflash va regressiya muammosi

Tahlil qilishda ko'pincha o'rganilayotgan ob'ektlarning ma'lum sinflarning qaysi biriga tegishli ekanligini aniqlash, ya'ni ularni tasniflash kerak bo'ladi. Misol uchun, shaxs kredit olish uchun bankka murojaat qilganda, bank xodimi potentsial mijozning kreditga layoqatli yoki yo'qligini hal qilishi kerak. Shubhasiz, bunday qaror o'rganilayotgan ob'ekt (bu holda shaxs): uning ish joyi, ish haqi, yoshi, oila tarkibi va boshqalar to'g'risidagi ma'lumotlar asosida qabul qilinadi. Ushbu ma'lumotlarni tahlil qilish natijasida bank Xodim ushbu shaxsni ikkita taniqli "kreditga layoqatli" va "kreditga layoqatsiz" toifalaridan biriga kiritishi kerak.

Tasniflash vazifasining yana bir misoli elektron pochtani filtrlashdir. Bunday holda, filtrlash dasturi kiruvchi xabarni spam (keraksiz elektron pochta) yoki xat sifatida tasniflashi kerak. Ushbu qaror xabarda ma'lum so'zlarning paydo bo'lish chastotasiga qarab qabul qilinadi (masalan, oluvchining ismi, shaxssiz manzili, so'z va iboralar: sotib olish, "qozon", "eng yaxshi taklif" va boshqalar).
Umumiy holda, tasniflash masalalarida sinflar soni ikkitadan ko'p bo'lishi mumkin. Masalan, raqamlar tasvirini tanib olish vazifasida 10 ta shunday sinf bo'lishi mumkin (o'nlik sanoq sistemasidagi raqamlar soniga ko'ra). Bunday vazifada tasniflash ob'ekti taniqli raqamning tasvirini ifodalovchi piksellar matritsasi hisoblanadi. Bunday holda, har bir pikselning rangi tahlil qilinadigan ob'ektning xarakteristikasi hisoblanadi.
Data Mining-da tasniflash vazifasi tahlil qilinadigan ob'ektning parametrlaridan birining qiymatini boshqa parametrlarning qiymatlari asosida aniqlash vazifasi sifatida qaraladi. Aniqlanayotgan parametr ko'pincha bog'liq o'zgaruvchi deb ataladi va uni aniqlashda ishtirok etuvchi parametrlar mustaqil o'zgaruvchilar deb ataladi. Ko'rib chiqilgan misollarda mustaqil o'zgaruvchilar quyidagilar edi:

ish haqi, yoshi, bolalar soni va boshqalar;
ma'lum so'zlarning chastotasi;
matritsa piksel rang qiymatlari.

Ushbu misollardagi bog'liq o'zgaruvchilar:

mijozning kreditga layoqatliligi (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari "ha" va "yo'q");
xabar turi (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari "spam" va "pochta");
rasm raqami (ushbu o'zgaruvchining mumkin bo'lgan qiymatlari 0, 1,..., 9).

Shuni ta'kidlash kerakki, ko'rib chiqilgan barcha misollarda mustaqil o'zgaruvchi cheklangan qiymatlar to'plamidan qiymat oldi: {ha, no}, {spam, mail}, {0, 1,..., 9}. Agar mustaqil va bog'liq o'zgaruvchilarning qiymatlari haqiqiy sonlar bo'lsa, muammo regressiya muammosi deb ataladi. Regressiya muammosiga misol sifatida bank tomonidan mijozga berilishi mumkin bo'lgan kredit miqdorini aniqlash muammosi keltiriladi.
Tasniflash va regressiya muammosi ikki bosqichda hal qilinadi. Birinchisi - mashg'ulot to'plami. U mustaqil va qaram o'zgaruvchilarning qiymatlari ma'lum bo'lgan ob'ektlarni o'z ichiga oladi. Yuqorida tavsiflangan misollarda bunday o'quv namunalari bo'lishi mumkin:

ilgari turli miqdorlarda kredit olgan mijozlar to‘g‘risidagi ma’lumotlar va ularning qaytarilishi to‘g‘risidagi ma’lumotlar;
qo'lda spam yoki elektron pochta sifatida tasniflangan xabarlar;
raqamli tasvirlarning ilgari tan olingan matritsalari.

O'quv namunasi asosida qaram o'zgaruvchining qiymatini aniqlash modeli quriladi. U ko'pincha tasniflash yoki regressiya funktsiyasi deb ataladi. Eng aniq funktsiyani olish uchun o'quv namunasiga quyidagi asosiy talablar qo'yiladi:

namunaga kiritilgan ob'ektlar soni etarlicha katta bo'lishi kerak. Ob'ektlar qanchalik ko'p bo'lsa, uning asosida tuzilgan tasniflash yoki regressiya funktsiyasi shunchalik aniq bo'ladi;
namunada tasniflash muammosi bo'lgan taqdirda barcha mumkin bo'lgan sinflarni yoki regressiya muammosi bo'lgan taqdirda barcha qiymatlar diapazonini ifodalovchi ob'ektlar bo'lishi kerak;
tasniflash muammosidagi har bir sinf yoki regressiya muammosidagi har bir diapazon oralig'i uchun namunada etarli miqdordagi xususiyatlar bo'lishi kerak.

Ikkinchi bosqichda tuzilgan model tahlil qilinayotgan ob'ektlarga (tobe o'zgaruvchining aniqlanmagan qiymatiga ega bo'lgan ob'ektlarga) qo'llaniladi.
Tasniflash va regressiya muammosi geometrik talqinga ega. Keling, buni ikkita mustaqil o'zgaruvchiga ega bo'lgan misol yordamida ko'rib chiqaylik, bu bizga uni ikki o'lchovli fazoda tasvirlash imkonini beradi (2.1.1-rasm). Har bir ob'ektga tekislikdagi nuqta beriladi. "+" va "-" belgilari ob'ektning ikkita sinfdan biriga tegishli ekanligini ko'rsatadi. Ko'rinib turibdiki, ma'lumotlar aniq belgilangan tuzilishga ega: "+" sinfining barcha nuqtalari markaziy mintaqada to'plangan. Tasniflash funktsiyasining qurilishi markaziy mintaqani o'rab turgan sirtni qurishga qisqartiriladi. Bu doira ichida "+" va tashqarida "-" qiymatlariga ega bo'lgan funksiya sifatida aniqlanadi.

Guruch. Ikki o'lchovli tasniflash

Rasmdan ko'rinib turibdiki, zarba maydonini qurish uchun bir nechta imkoniyatlar mavjud. Funktsiyaning turi qo'llaniladigan algoritmga bog'liq.

Tasniflash va regressiya muammolarini hal qilishda duch keladigan asosiy muammolar dastlabki ma'lumotlarning qoniqarsiz sifati bo'lib, unda noto'g'ri ma'lumotlar va etishmayotgan qiymatlar, har xil turdagi atributlar - raqamli va kategorik, atributlarning har xil ahamiyati, shuningdek, - haddan tashqari o'rnatish va to'ldirish muammolari deb ataladi. Ulardan birinchisining mohiyati shundan iboratki, tasniflash funktsiyasi "juda yaxshi" tuzilganida ma'lumotlarga moslashadi va ularda uchraydigan xatolar va anomaliyalarni ichki ma'lumotlar strukturasining bir qismi sifatida izohlashga harakat qiladi. Shubhasiz, bunday model kelajakda boshqa ma'lumotlar bilan to'g'ri ishlamaydi, bu erda xatolarning tabiati biroz boshqacha bo'ladi. Noto'g'ri ishlash atamasi o'quv majmuasida tasniflagichni tekshirishda xatolar soni juda yuqori bo'lgan vaziyatni anglatadi. Bu shuni anglatadiki, ma'lumotlarda maxsus naqshlar topilmadi va ular umuman yo'q yoki ularni aniqlashning boshqa usulini tanlash kerak.

Assotsiatsiya qoidalarini izlash vazifasi

Assotsiatsiya qoidalarini qidirish eng mashhur Data Mining ilovalaridan biridir. Muammoning mohiyati bunday to'plamlarning katta to'plamida tez-tez uchraydigan ob'ektlar to'plamini aniqlashdir. Bu muammo tasniflash muammosining alohida holatidir. Dastlab, supermarketlardagi xaridorlarning xatti-harakatlaridagi tendentsiyalarni tahlil qilishda hal qilindi. Ular tomonidan amalga oshirilgan, xaridorlar aravaga (savatga) joylashtirgan xaridlari haqidagi ma’lumotlar tahlil qilindi. Bu ikkinchi tez-tez uchraydigan nomga sabab bo'ldi - bozor savatlarini tahlil qilish (Basket Analysis). При анализе этих данных интерес прежде всего представляет информация о том, какие товары покупаются вместе, в какой последовательности, какие категории потребителей, какие товары предпочитают, в какие периоды времени и т. п. Такая информация позволяет более эффективно планировать закупку товаров, проведение рекламной кампании va hokazo.

Masalan, do'konda qilingan xaridlar to'plamidan biz birgalikda sotib olingan quyidagi tovarlar to'plamini ajratib ko'rsatishimiz mumkin:

{chips, pivo};
{suv, yong'oq}.

Shuning uchun, xulosa qilishimiz mumkinki, agar siz chips yoki yong'oq sotib olsangiz, unda, qoida tariqasida, mos ravishda pivo yoki suv sotib olasiz. Ushbu bilimga ega bo'lgan holda, siz ushbu mahsulotlarni yonma-yon joylashtirishingiz, ularni chegirma bilan bir paketga birlashtirishingiz yoki xaridorni mahsulotni sotib olishga undaydigan boshqa harakatlar qilishingiz mumkin.
Assotsiatsiya qoidalarini izlash vazifasi nafaqat savdo sohasida ham dolzarbdir. Misol uchun, xizmat ko'rsatish sohasida mijozlar jami xizmatlardan foydalanishni afzal ko'rishlari qiziqishdir. Ushbu ma'lumotni olish uchun muammo bitta mijoz tomonidan ma'lum vaqt (oy, yil) uchun foydalanilgan xizmatlar to'g'risidagi ma'lumotlarga nisbatan hal qilinadi. Bu, masalan, mijozga taqdim etilayotgan xizmatlarni qanday qilib eng yaxshi paketlashni aniqlashga yordam beradi.
Tibbiyotda bemorlarda kuzatilgan alomatlar va kasalliklarni tahlil qilish mumkin. Bunday holda, kasallik va alomatlarning qaysi kombinatsiyasi ko'pincha sodir bo'lishini bilish kelajakda to'g'ri tashxis qo'yishga yordam beradi.
Tahlil qilishda sodir bo'ladigan voqealar ketma-ketligi ko'pincha qiziqish uyg'otadi. Bunday ketma-ketlikda naqshlar topilganda, ma'lum darajada ehtimollik bilan kelajakda voqealar sodir bo'lishini bashorat qilish mumkin, bu esa to'g'ri qaror qabul qilish imkonini beradi. Bunday muammo assotsiatsiya qoidalarini topish muammosining variatsiyasi bo'lib, ketma-ket tahlil deb ataladi.
Ketma-ket tahlil qilish vazifasi va assotsiatsiya qoidalarini izlash o'rtasidagi asosiy farq o'rganilayotgan to'plamlar o'rtasida tartib munosabatlarini o'rnatishdir. Bu munosabatlar turli yo'llar bilan belgilanishi mumkin. Vaqt bo'yicha sodir bo'ladigan hodisalar ketma-ketligini tahlil qilganda, bunday to'plamlarning ob'ektlari hodisalar bo'lib, tartib munosabati ularning paydo bo'lish xronologiyasiga mos keladi.
Ketma-ket tahlil, masalan, telekommunikatsiya kompaniyalarida turli tarmoq tugunlarida baxtsiz hodisalar haqidagi ma'lumotlarni tahlil qilish uchun keng qo'llaniladi. Baxtsiz hodisalar ketma-ketligi haqidagi ma'lumotlar muammolarni aniqlash va yangi baxtsiz hodisalarning oldini olishga yordam beradi. Masalan, agar muvaffaqiyatsizliklar ketma-ketligi ma'lum bo'lsa:

qayerda bo'lsa, unda xatolik yuzaga kelgan faktga asoslanib , biz tez orada nosozlik paydo bo'ladi degan xulosaga kelishimiz mumkin . Buni bilib, muvaffaqiyatsizlik sabablarini bartaraf etish uchun profilaktika choralarini ko'rishingiz mumkin. Agar siz muvaffaqiyatsizliklar orasidagi vaqt haqida qo'shimcha ma'lumotga ega bo'lsangiz, unda siz nafaqat uning paydo bo'lish faktini, balki ko'pincha muhim bo'lmagan vaqtni ham bashorat qilishingiz mumkin.

Klasterlash muammosi

Klasterlashning vazifasi o'rganilayotgan ob'ektlar to'plamini klasterlar deb ataladigan "o'xshash" ob'ektlar guruhlariga bo'lishdir. Ingliz tilidan kelib chiqqan klaster (klaster) so'zi laxta, to'da, guruh deb tarjima qilingan. Adabiyotda qo'llaniladigan tegishli tushunchalar sinf, takson, kondensatsiya. Ko'pincha elementlar to'plamini klasterlarga bo'lish masalasini hal qilish klaster tahlili deb ataladi.

Klasterlash eksperimental yoki statistik ma'lumotlarni o'rganish zarur bo'lgan deyarli har qanday sohada qo'llanilishi mumkin. Marketing sohasidagi misolni ko'rib chiqing, bu vazifa segmentatsiya deb ataladi.
Kontseptsiyaga ko'ra, segmentatsiya barcha iste'molchilar har xil ekanligiga asoslanadi. Ularning talablari har xil, mahsulotga bo‘lgan talablari har xil bo‘lib, ular o‘zini turlicha tutadi: mahsulotni tanlash jarayonida, mahsulotni sotib olish jarayonida, mahsulotdan foydalanish jarayonida, mahsulotga reaktsiyani shakllantirish jarayonida. Shu munosabat bilan iste'molchilar bilan ishlashga boshqacha yondashish kerak: ularga har xil xususiyatdagi tovarlarni taklif qilish, tovarlarni turli yo'llar bilan ilgari surish va sotish. Iste'molchilarning bir-biridan qanday farq qilishini va bu farqlar mahsulotga qo'yiladigan talablarga qanday ta'sir qilishini aniqlash uchun iste'molchilarni segmentatsiyalash amalga oshiriladi.
Marketingda segmentatsiya mezonlari (belgilari) quyidagilardan iborat: geografik joylashuv, ijtimoiy-demografik xususiyatlar, xarid qilish motivlari va boshqalar.
Segmentatsiya natijalariga ko'ra, marketolog, masalan, segmentning haqiqiy va potentsial sig'imi, ehtiyojlari ushbu bozor segmentida ishlaydigan biron bir ishlab chiqaruvchi tomonidan to'liq qondirilmaydigan iste'molchilar guruhlari va boshqalar kabi bozor segmentlarining xususiyatlarini aniqlashi mumkin. ushbu parametrlar bo'yicha marketolog tanlangan bozor segmentlarining har birida kompaniya ishining jozibadorligi haqida xulosa chiqarishi mumkin.
Ilmiy tadqiqotlar uchun klasterlash natijalarini o'rganish, ya'ni ob'ektlarni guruhlarga birlashtirish sabablarini aniqlash yangi istiqbolli yo'nalishlarni ochishi mumkin. Odatda bu holat uchun berilgan an'anaviy misol elementlarning davriy jadvalidir. B 1869 г. Dmitriy Mendeleev o'sha davrda ma'lum bo'lgan 60 ta elementni klasterlarga yoki davrlarga ajratdi. Xuddi shu guruhga kirgan elementlar o'xshash xususiyatlarga ega edi. Elementlarning aniq klasterlarga bo'linish sabablarini o'rganish ko'p jihatdan kelgusi yillar uchun ilmiy tadqiqotlarning ustuvor yo'nalishlarini belgilab berdi. Ammo atigi 50 yil o'tgach, kvant fizikasi davriy tizim haqida ishonchli tushuntirishlarni berdi.
Klasterlash tasniflashdan farq qiladi, chunki tahlil alohida bog'liq o'zgaruvchini talab qilmaydi. Shu nuqtai nazardan qaraganda, u nazoratsiz ta'lim sinfiga kiradi. Ushbu muammo tadqiqotning dastlabki bosqichlarida, ma'lumotlar haqida kam ma'lumotga ega bo'lganda hal qilinadi. Uning yechimi ma'lumotlarni yaxshiroq tushunishga yordam beradi va shu nuqtai nazardan, klasterlash vazifasi tavsiflovchi vazifadir.
Klasterlash muammosi o'zgaruvchilar va ob'ektlar o'rtasida hech qanday farqlarning yo'qligi bilan tavsiflanadi. Aksincha, eng yaqin, o'xshash ob'ektlar guruhlari qidiriladi. Avtomatik klasterlash usullari o'z-o'zidan kamdan-kam qo'llaniladi, faqat o'xshash ob'ektlar guruhlarini olish uchun. Klasterlar aniqlangandan so'ng, bo'linish nimani anglatishini va unga nima sabab bo'lganini aniqlashga harakat qilish uchun boshqa Data Mining usullari qo'llaniladi.
Klaster tahlili juda katta hajmdagi ma'lumotlarni ko'rib chiqish va katta hajmdagi ma'lumotlarni keskin qisqartirish, siqish, ularni ixcham va vizual qilish imkonini beradi.
Biz klasterlash muammosiga xos bo'lgan bir qator xususiyatlarni qayd etamiz.
Birinchidan, qaror ma'lumotlar ob'ektlarining tabiatiga (va ularning atributlariga) juda bog'liq. Shunday qilib, bir tomondan, bular aniq belgilangan, miqdoriy jihatdan aniq belgilangan ob'ektlar va boshqa tomondan, ehtimollik yoki noaniq tavsifga ega bo'lgan ob'ektlar bo'lishi mumkin.
Ikkinchidan, yechim, shuningdek, klasterlarning ko'rinishiga va ma'lumotlar ob'ektlari va klasterlar o'rtasidagi taxminiy munosabatlarga bog'liq. Shunday qilib, bir nechta klasterlarga tegishli ob'ektlarning mumkinligi / mumkin emasligi kabi xususiyatlarni hisobga olish kerak. Klasterga a'zolik tushunchasining o'ziga xosligini aniqlash kerak: bir ma'noli (a'zolik / tegishli emas), ehtimollik (a'zolik ehtimoli), noaniq (a'zolik darajasi).

Data Miner xususiyatlari Statistika 8

StatSoft STATISTICA Data Miner tizimini ishlab chiqdi, u universal va keng qamrovli ma'lumotlarni tahlil qilish vositasi sifatida ishlab chiqilgan va joriy qilingan - turli ma'lumotlar bazalari bilan o'zaro aloqada bo'lishdan tayyor hisobotlarni yaratishgacha, grafikga yo'naltirilgan yondashuvni amalga oshiradi. Ushbu paketning barcha xususiyatlarini tavsiflash uchun siz butun kitob yozishingiz kerak bo'ladi, shuning uchun biz ushbu paketda mavjud bo'lgan asosiy Data Mining vositalarini qisqacha tavsiflashga harakat qilamiz.

Dasturiy ta'minot bozorida Data Mining usullarining eng to'liq to'plami;
Tayyor echimlarning katta to'plami;
MS Office bilan to'liq integratsiyalashgan qulay foydalanuvchi interfeysi;
Kuchli qidiruv tahlil vositalari;
Katta hajmdagi ma'lumotlar bilan ishlash uchun to'liq optimallashtirilgan paket;
Moslashuvchan boshqaruv mexanizmi;
Ko'p vazifali tizim;
Juda tez va samarali joylashtirish;
Ochiq MAQOMOTI arxitekturasi, avtomatlashtirish uchun cheksiz imkoniyatlar va maxsus ilovalarni qo‘llab-quvvatlash (sanoat standarti Visual Basic (o‘rnatilgan til), Java, C/C++ yordamida).

STATISTICA Data Miner markazida Data Mining protseduralari brauzeri joylashgan boʻlib, unda Data Mining vazifalari uchun maxsus optimallashtirilgan 300 dan ortiq asosiy protseduralar hamda ular va maʼlumotlar oqimini boshqarish oʻrtasidagi mantiqiy bogʻlanish vositalari mavjud boʻlib, oʻz tahliliy usullaringizni loyihalash imkonini beradi.

STATISTICA Data Miner ish maydoni to'rtta asosiy qismdan iborat:

Ma'lumotlarni yig'ish - ma'lumotlarni yig'ish. Ushbu qismda foydalanuvchi tahlil qilish uchun ma'lumotlar manbasini aniqlaydi, u ma'lumotlar fayli yoki ma'lumotlar bazasidan so'rov bo'ladimi.
Ma'lumotlarni tayyorlash, tozalash, o'zgartirish - ma'lumotlarni tayyorlash, o'zgartirish va tozalash. Bu erda ma'lumotlar o'zgartiriladi, filtrlanadi, guruhlanadi va hokazo.
Ma'lumotlarni tahlil qilish, modellashtirish, tasniflash, prognozlash - ma'lumotlarni tahlil qilish, modellashtirish, tasniflash, prognozlash. Bu yerda foydalanuvchi prognozlash, tasniflash, modellashtirish va h.k. kabi maʼlumotlarni tahlil qilishning kerakli turlarini oʻrnatish uchun brauzer yoki tayyor modellardan foydalanishi mumkin.
Hisobotlar - Natijalar. Ushbu qismda foydalanuvchi tahlil natijalarini (masalan, ish kitobi, hisobot yoki elektron jadval) ko'rishi, ko'rinishini o'rnatishi va sozlashi mumkin.

STATISTICA tahlil vositalari Ma'lumotlar Konchi

Paket keng qamrovli protseduralar va tasvirlash usullarini taklif qiladi.

STATISTICA Data Miner tahlil vositalarini beshta asosiy sinfga ajratish mumkin:

General Slicer/Dicer va Drill-Down Explorer O'zgaruvchilarni bo'lish, guruhlash, tavsiflovchi statistikani hisoblash, tadqiqot grafiklarini yaratish va h.k. imkonini beruvchi protseduralar to'plami.
Umumiy klassifikator - tasniflash. STATISTICA Data Miner tasniflash protseduralarining to'liq to'plamini o'z ichiga oladi: umumlashtirilgan chiziqli modellar, tasniflash daraxtlari, regressiya daraxtlari, klaster tahlillari va boshqalar.
General Modeler/Multivariate Explorer - Umumlashtirilgan chiziqli, chiziqli bo'lmagan va regressiya modellari. Bu element chiziqli, chiziqli bo'lmagan, umumlashtirilgan regressiya modellarini va tasniflash daraxtini tahlil qilish elementlarini o'z ichiga oladi.
Bosh prognozchi - bashorat qilish. ARPSS modellari, mavsumiy ARPSS modellari, eksponensial tekislash, Furye spektral tahlili, mavsumiy parchalanish, neyron tarmoqlarni bashorat qilish va boshqalarni o'z ichiga oladi.
General Neural Networks Explorer - Neyron tarmoq tahlili. Ushbu qism neyron tarmoqlarni tahlil qilish protseduralarining eng to'liq to'plamini o'z ichiga oladi.

Yuqoridagi elementlar boshqa StatSoft mahsulotlari modullarining kombinatsiyasi bo'lib, ularga qo'shimcha ravishda STATISTICA Data Miner Data Mining asboblar qatorini to'ldiradigan maxsus ma'lumotlarni yig'ish protseduralarini o'z ichiga oladi.

Xususiyatlarni tanlash va o'zgaruvchan filtrlash (juda katta ma'lumotlar to'plami uchun) - Maxsus tanlash va ma'lumotlarni filtrlash (katta hajmdagi ma'lumotlar uchun). Ushbu modul keyingi tahlil qilish uchun berilgan ma'lumotlar faylidan avtomatik ravishda o'zgaruvchilarning kichik to'plamlarini tanlaydi. Misol uchun, modul regressiya yoki tasniflash uchun bashorat qiluvchilarni aniqlash uchun millionga yaqin kirish o'zgaruvchilarini qayta ishlashi mumkin.
Assotsiatsiya qoidalari - Uyushma qoidalari. Modul assotsiatsiya qoidalarini aniqlashning apriori algoritmini amalga oshirishdir, masalan, ushbu algoritmning natijasi quyidagicha bo'lishi mumkin: "A" mahsulotini sotib olgandan so'ng, 100 tadan 95 ta holatda, keyingi ikki hafta ichida. shundan so'ng, "B" yoki "C" mahsulotiga buyurtma beradi.
Interaktiv Drill-Down Explorer - Interaktiv chuqur tahlil. Bu katta ma'lumotlar to'plamlarini moslashuvchan tadqiq qilish uchun vositalar to'plami. Birinchi bosqichda siz ma'lumotlarni chuqur tahlil qilish uchun o'zgaruvchilar to'plamini aniqlaysiz; har bir keyingi bosqichda keyingi tahlil qilish uchun kerakli ma'lumotlar kichik guruhini tanlaysiz.
Umumlashtirilgan EM & k-means klaster tahlili - Umumlashtirilgan maksimal o'rtacha va K-means klasteri. Ushbu modul katta ma'lumotlar to'plamlarini qayta ishlash uchun mo'ljallangan va uzluksiz va toifali o'zgaruvchilarni klasterlash imkonini beruvchi klaster tahlil usullarining kengaytmasi bo'lib, naqshni aniqlash uchun barcha zarur funktsiyalarni ta'minlaydi.
Generalized Additive Models (GAM) - Generalized Additive Models (GAM). Hastie va Tibshirani (1990) tomonidan ishlab chiqilgan va ommalashtirilgan usullar to'plami; Ushbu usullarning batafsil muhokamasini Schimek (2000) da topish mumkin.
Umumiy tasnif va regressiya daraxtlari (GTrees) - Umumiy tasnif va regressiya daraxtlari (GTrees). Modul Breiman, Friedman, Olshen va Stone (1984) tomonidan ishlab chiqilgan usullarni to'liq amalga oshirishdir. Bundan tashqari, modulda turli xil yaxshilanishlar va qo'shimchalar mavjud, masalan, katta hajmdagi ma'lumotlar uchun algoritmlarni optimallashtirish va hokazo. Modul umumlashtirilgan tasniflash va regressiya daraxtlari uchun usullar to'plamidir.
Umumiy CHAID (Chi-square Automatic Interaction Detection) modellari - Umumiy CHAID modellari (Chi-square avtomatik shovqinni aniqlash). Oldingi element singari, ushbu modul katta hajmdagi ma'lumotlar uchun ushbu matematik modelni optimallashtirishdir.

data miner statistica regression klasterlash

Interaktiv tasnif va regressiya daraxtlari - Interaktiv tasniflash va regressiya daraxtlari. Har xil turdagi daraxtlarni avtomatik ravishda qurish modullaridan tashqari, STATISTICA Data Miner ham interaktiv tarzda bunday daraxtlarni yaratish vositalarini o'z ichiga oladi.
Boosted Trees - Boosted oddiy daraxtlar. Analitik algoritmlar bo'yicha so'nggi tadqiqotlar shuni ko'rsatadiki, ba'zi "murakkab" hisob-kitoblar, bashoratlar va tasniflar uchun asta-sekin o'sib borayotgan oddiy daraxtlardan foydalanish neyron tarmoqlar yoki murakkab qattiq daraxtlarga qaraganda aniqroq natijalar beradi. Ushbu modul oddiy o'sadigan (kengaytiriladigan) daraxtlarni qurish algoritmini amalga oshiradi.
Multivariate Adaptive Regression Splines (Mar Splines) - Ko'p o'zgaruvchan adaptiv regression splinelar (Mar Splines). Ushbu modul Fridman (1991; Multivariate Adaptive Regression Splines, Annals of Statistics, 19, 1-141) tomonidan taklif qilingan texnikani amalga oshirishga asoslangan; MARSPLINES opsiyalari STATISTICA Data Miner dasturida uzluksiz va toifali bashorat qiluvchilar uchun regressiya va tasniflash muammolarini hal qilish uchun kengaytirilgan.
Hisoblashning yaxshiligi - muvofiqlik mezonlari. Ushbu modul doimiy va toifali o'zgaruvchilar uchun turli xil statistik muvofiqlik testlarini hisoblab chiqadi.
Bashoratli modellarni tezkor joylashtirish - Tez bashorat qilish modellari (ko'p sonli kuzatilgan qiymatlar uchun). Modul qisqa vaqt ichida katta hajmdagi ma'lumotlar uchun tasniflash va bashorat qilish modellarini yaratish imkonini beradi. Olingan natijalar bevosita tashqi ma'lumotlar bazasida saqlanishi mumkin.

Yüklə 2,04 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6