Intellektual zdybností iqtidorli bolalar maktab muvaffaqiyati bilan bog'liq
Diplom ishi >> Psixologiya
Muvaffaqiyat va o'ziga xosliklarning o'zaro ta'siri intellektual rivojlanish. Nazariy asosda tahlil bula ...siz aqlga yetib borish muammolari tahlil yoga psixologik tuzilishi. Baholash uchun Virishal intellektual tasalli beradi...
Data Mining nima
Data Mining vazifalarini tasniflash
Assotsiativ qoidalarni so'rash
Klaster bo'limi boshlig'i
Statistica 8-da ma'lumotlar ishlab chiqaruvchisi imkoniyati
Maxsus tahlil STATISTICA Data Miner
Data Minin-da robotlar
Tovushlar va pidbaglarni yaratish
Ma'lumotni saralash
Turar-joy binolari narxini tahlil qilish
Hayotni bashorat qiluvchi tahlil
Visnovok
Data Mining nima
Hozirgi kompyuter atamasi Data Mining "vityag ínformatsií" yoki "ma'lumotlar kabinasi" deb tarjima qilingan. Ko'pincha Data Mining tartibida Knowledge Discovery ("oshkor qilingan bilim") va Data Warehouse ("ma'lumotlar to'plami") atamalari qo'llaniladi. Ma'lumotlar konchiligining ko'rinmas qismi sifatida atamalarni belgilashning oqlanishi foyda va ma'lumotlarni qayta ishlash va yig'ish usullarini rivojlantirishning yangi bosqichi bilan bog'liq. Bundan buyon, meta Data Mining katta (hatto katta) majburiyatlarning aniqlangan qoidalari va naqshlariga asoslanadi.
To'g'ri, inson ongi o'z-o'zidan turli xil ma'lumotlarning katta massivlarini qabul qilish uchun mos emas. O'rtacha odam, ba'zi bir kishilarning Qrimi, kichik tebranishlarda o'zaro ilhomlantiruvchi ikki yoki uchtadan ko'proq narsani ushlay olmaydi. Ammo so'nggi uch yil davomida ma'lumotlarni tahlil qilishning asosiy vositasi rolini o'ynagan an'anaviy statistika ko'pincha kunlik ish soatini real hayotdan o'tkaza olmaydi. Вона оперує усередненими характеристиками вибірки, які часто є фіктивними величинами (середньою платоспроможністю клієнта, коли в залежності від функції ризику або функції втрат вам необхідно вміти прогнозувати спроможність та наміри клієнта; середньою інтенсивністю сигналу, тоді як вам цікаві характерні особливості та передумови піків сигналу тощо) . d.).
Shu sababli, matematik statistikaning usullari sahna ortidagi gipotezalarni qayta ko'rib chiqishning eng muhim sababidir, hatto gipotezalarni belgilash katlama va mashaqqatli vazifalar orqali amalga oshirilishi mumkin. Zamonaviy Data Mining texnologiyalari shablonlarni (naqshlarni) avtomatik qidirish usulidan foydalangan holda ma'lumotlarni qayta ishlaydi, turli xil boy ma'lumotlarda ba'zi qismlar mavjud. Data Mining-da ma'lumotlarni operativ analitik qayta ishlash (OLAP) maqsadida gipotezani shakllantirish va kutilmagan naqshlarning namoyon bo'lishi odamlardan kompyuterga o'tkazildi. Ma'lumotni qazib olish - bu bitta emas, balki bilimlarni rivojlantirishning juda ko'p turli xil usullari to'plamidir. Usulni tanlash ko'pincha mavjud ma'lumotlarning turiga va siz qo'lga kiritmoqchi bo'lgan ma'lumotlarga qarab topiladi. Eksa, masalan, ikkilanish usullari: assotsiatsiya (kombinatsiya), tasniflash, klasterlash, vaqt seriyalarini tahlil qilish va prognozlash, neyron tarmoqlar.
Keling, oshkor qilingan bilimlarning kuchini, rasmiylarning ma'lumotlarini ko'rib chiqaylik.
Bilim yangi, ilgari noma'lum bo'lishi mumkin. Vitracheni zusillya vydkrittya bilim, yaky vzhe vídomí koristuvacheví, to'lamang. Shuning uchun, yangi, ilgari noma'lum bilimga aylanishning qiymati.
Bilim ahamiyatsiz bo'lishi mumkin. Aybdorlikni tahlil qilish natijalari noaniq, ma'lumotlarning qonuniyatlariga mos kelmaydigan ko'rinadi, bu esa uni bilimga ega bo'lish deb ataydi. Natijalar, garchi ularni oddiyroq usullar bilan (masalan, vizual ko'rib chiqish orqali) olib tashlash mumkin bo'lsa-da, Data Miningning mashaqqatli usullari bilan haqiqatan ham qo'lga tushmaydi.
Bilim mayut buti amalda jigarrang. Ma'lum bo'lgan bilim zastosovny, zokrema va yangi ma'lumotlar, ishonchliligi yuqori bo'lishi mumkin. Maydonning egriligi shundaki, bu bilim ular to'xtab qolganda qo'shiq kuylashi mumkin.
Aqlli odam aybdorligini bilishi mumkin. Ma'lum naqshlarni mantiqan tushunish mumkin, aks holda hidning vipadkovymi bo'lishi ehtimoli bor. Bundan tashqari, aybdorlik bilimi oshkor bo'ldi, lekin u qaraydigan odam uchun oqilona odamga taqdim etildi.
Data Mining-da bilimlarning namoyishi namuna sifatida xizmat qiladi. Modellarning yaratilish yo'llarida yotganini ko'ring. Eng kengaytirilganlari: qoidalar, qarorlar daraxtlari, klasterlar va matematik funktsiyalar.
Data Mining turg'unlik sohasi hech narsa bilan cheklanmaydi - Data Mining tuz donasi bilan iste'mol qilinadi, masalan, ma'lumotlar. Dosvíd boylik podpriyomstv pokao, scho víddacha víd víd vikoristannya Data Mining 1000% ga yetishi mumkin. Masalan, 350 dan 750 yew gacha bo'lgan kob vitrati tomonidan 10-70 marta bosilgan iqtisodiy samara haqida aytib beraman. USD 20 million dollarlik loyiha haqida ma'lumot kiritildi, bu 4 oydan kamroq vaqt ichida o'zini oqladi. Ikkinchi ko't - 700 ming tejamkorlik. USD Buyuk Britaniyadagi Merezhi supermarketlarida Data Mining kompaniyasini ilgari surish uchun. Data Mining olimlar va tahlilchilar uchun kundalik ishlarida katta ahamiyatga ega. Diloviylar Data Mining usullari yordamida raqobatbardosh kurashda muhim ustunliklarni qo'lga kiritishlari mumkinligini ko'rdilar.
DataMining vazifalarini tasniflash
DataMining usullari sizga tahlilchi tiqilib qolgan ko'plab muammolarni ko'rish imkonini beradi. Ularning asosiylari: tasniflash, regressiya, assotsiativ qoidalarni izlash va klasterlash. Quyida ma'lumotlarni tahlil qilishning asosiy vazifalarining qisqacha tavsifi keltirilgan.
1) Tasniflash vazifasi ob'ektning xususiyatlariga ko'ra sinfiga berilishi kerak. Keyingi narsa, shaxssiz sinflarning etakchilaridan qaysi biri ob'ektga ega bo'lishi mumkinligini aniqlashdir.
2) Regressiya vazifasi, xuddi tasniflash vazifasiga o'xshab, berilgan parametrning qiymatini ob'ektning berilgan xususiyatlariga belgilash imkonini beradi. Vídmínu víd zavdannya klasifíkatsíí parametr qiymatlari sinflarning yakuniy multiplikatori emas, balki shaxssiz haqiqiy sonlar.
3) uyushma rahbari. p align="justify"> Assotsiativ qoidalarni qidirayotganda, men ob'ektlar yoki podiaslar orasidagi qisman konlarni (yoki assotsiatsiyalarni) aniqlash uchun usuldan foydalanaman. Ma'lum depozitlar qoidalar sifatida paydo bo'ladi va siz ma'lumotlarni tahlil qilish tabiatini eng yaxshi tushunish sifatida g'alaba qozonishingiz mumkin, shuning uchun ko'rinishlarni uzatish mumkin.
4) Klasterlash vazifasi tahlil qilinayotgan barcha ma'lumotlar sonida ushbu belgilarning mustaqil guruhlarini (klasterlarini) izlashga asoslangan. Ushbu vazifani hal qilish ma'lumotlarni yaxshiroq tushunishga yordam beradi. Bundan tashqari, bir hil ob'ektlarni guruhlash ularning sonini tezlashtirishga imkon beradi, shuningdek, tahlilni osonlashtiradi.
5) Oxirgi naqshlar - ular o'rtasida soat bilan bog'liq bo'lgan qonuniyatlarni o'rnatish, keyin. o'simliklarning mavjudligi, xuddi X podia, keyin bir soatdan keyin Y podia paydo bo'ladi.
6) Topilmalarni tahlil qilish - eng xarakterli bo'lmagan naqshlarni aniqlash.
Tan olish uchun topshiriqlar ro'yxati tavsif va tarjimalarga bo'linadi.
Ta'riflar (tavsiflovchi) zavdannya ma'lumotlar tahlilini tushunishni yaxshilashga ahamiyat beradi. Bunday modellardagi asosiy nuqta - bu odamni qabul qilish uchun natijalarning engilligi va shaffofligi. Ehtimol, aniqlangan qonuniyatlar to'plangan aniq ma'lumotlarga xos bo'lib, keng tarqalgan bo'lmasligi mumkin, ammo barchasini tuzatish mumkin va shuning uchun ko'rish mumkin. Bunday vazifani bajarishdan oldin klasterlash va assotsiativ qoidalarni izlash qo'llanilishi kerak.
O'tkazish (prognozlash) vazifasini aniqlash ikki bosqichga bo'linadi. Birinchi bosqichda ma'lumotlar to'planishiga qarab, model natijalarga asoslanadi. Boshqa bosqichda, yangi ma'lumotlar to'plamini taqdim etish natijalarini bashorat qilish g'alaba qozonadi. Qanday bo'lmasin, modellar iloji boricha aniq ishlab chiqilgan bo'lishi kerak. Qaysi fikrga tartib tasniflash va regressiya tartibi beriladi. Bu erda siz assotsiativ qoidalarni qo'shishingiz va so'rashingiz mumkin, shunda bu virishennia natijalari ma'lum podiaslarning ko'rinishini o'tkazish uchun tanlanishi mumkin.
Amalga oshirish usullari bo'yicha vazifa nazorat ostida o'qitish (o'qituvchi bilan o'qitilgan) va nazoratsiz ta'lim (o'qituvchisiz o'qitilgan) ga bo'linadi. Bu nom ingliz adabiyotida tez-tez ishlatiladigan va barcha Data Mining texnologiyalarini bildiruvchi Machine Learning (mashinalarni o'rganish) atamasiga o'xshaydi.
Nazorat ostida o'rganish davrida ma'lumotlarni tahlil qilish vazifasi bir necha bosqichda farq qiladi. Data Mining algoritmiga yordam berishdan tashqari, ma'lumotlarni tahlil qilish modeli - klassifikator bo'ladi. Keling, o'rganish uchun klassifikatorni olaylik. Boshqacha qilib aytganda, yoga robotining sifati qoniqarsiz bo'lsa-da, qayta ko'rib chiqilmoqda; Shunday qilib, o'sha soatgacha harakat qiling, doklar kerakli sifat darajasiga etadi yoki siz algoritm ma'lumotlar bilan to'g'ri ishlamayotgani yoki ma'lumotlarning o'zida ko'rsatilishi mumkin bo'lgan tuzilishga ega emasligi aniq bo'ladi. Tasniflash va regressiya vazifasi qaysi turdagi vazifadir.
Nazoratsiz o'rganish kundalik tartib bo'lib, tavsif modellarini ochib beradi, masalan, ajoyib do'kon mijozlari xaridlaridagi tartiblarni. Shubhasiz, qonuniyatlar mavjud bo'lsa-da, model o'rganishni ochib berish va nomuvofiq gapirishda aybdor. Yulduz va ism - nazoratsiz o'rganish. Bunday vazifalarning afzalligi ma'lumotlar haqida oldindan ma'lumotga ega bo'lmagan holda ularni bajarish imkoniyatidir. Ulardan oldin klasterni ko'rish va assotsiativ qoidalarni qidirish mumkin.
Tasniflash va regressiya boshlig'i
Tahlil qilishda ko'pincha berilgan sinflardan qaysi birini ob'ektga qo'shish kerakligini ko'rsatish, ya'ni ularni tasniflash kerak. Misol uchun, agar biror kishi kredit olish uchun bankka borsa, bank xodimi qarorni maqtashi mumkin: kreditni rag'batlantiruvchi potentsial mijoz nima. Ko'rinib turibdiki, bunday yechim ob'ektni (bu holda - odamlar) tugatganligi to'g'risidagi ma'lumotlar asosida qabul qilinadi: ish joyi, ish haqining oshishi, ish haqi, ombori yupqa. Mazkur ma’lumotlarning tahlili natijasida bank xodimi shaxsni “kreditni rag‘batlantiruvchi” va “kreditni ilgari surmaydigan” ikki toifadan biriga ko‘ra tasniflashda aybdor hisoblanadi.
Tasniflash boshlig'ining ikkinchi ustuni - bu elektron pochtani filtrlash. Ba'zi sabablarga ko'ra, filtrlash dasturi ogohlantirishlarni spam (nebazhana e-mail) yoki ro'yxat sifatida tasniflashda aybdor. Bu qaror eslab qolingan qo'shiqlarda paydo bo'lish chastotasi asosida qabul qilinadi (masalan, obsesifning nomi, maxsus hayvonsiz, ibora o'sha ibora: keling, "toping", "taklifni ko'ring" keyin) .
ma'lumotlarni qayta ishlash) va "qo'pol" tahlil, bu ma'lumotlarni operativ analitik qayta ishlash uchun asos bo'ladi (OnLine Analytical Processing, OLAP), shuningdek, Data Mining-ning asosiy qoidalaridan biri - noaniq ma'lumotlarni qidirish. naqshlar. Data Mining vositalari bunday qonuniyatlarni mustaqil ravishda bilishi va o'zaro bog'lanishlar haqidagi farazlarni mustaqil ravishda ishlab chiqishi mumkin. Oskylki eng murakkab vazifalarga konlari uchun gipoteza juda shakllantirish, boshqa tahlil usullari bilan solishtirganda Data Mining muvaffaqiyati, yaqqol.
Ma'lumotlarni qazib olishda o'zaro bog'liqlikni aniqlashning statistik usullarining aksariyati, xuddi Data Mining haqiqiy qiymatlar ustida ishlaganidek, noaniq qiymatlar bo'yicha operatsiyalarga olib keladigan tanlov bo'yicha o'rtachalashtirish kontseptsiyasiga asoslanadi.
OLAP retrospektiv ma'lumotlarni tahlil qilish uchun ko'proq mos keladi, Data Mining kelajakdagi ma'lumotlar uchun dalillarni olish uchun retrospektiv ma'lumotlarga tayanadi.
Ma'lumotlarni qazib olish texnologiyasi istiqbollari
Data Mining salohiyati stendlararo texnologiyani kengaytirish uchun "yashil chiroq" beradi. Data Miningning ba'zi istiqbollari bevosita ishlab chiqilishi mumkin:
eng dolzarb evristikadan mavzu sohalari turlarini ko'rish, ularning rasmiylashtirilishi ushbu sohalar oldida turgan Data Miningning eng muhim vazifalarini ishlab chiqishga yordam beradi;
rasmiy harakatlar va mantiqiy vositalarni yaratish, ularning yordami uchun aks ettirish va avtomatlashtirishni rasmiylashtirish amalga oshiriladi, ular ma'lum bir mavzu galleylarida Data Mining vazifasini bajarish uchun vositaga aylanadi;
ma'lumotlarni qidirish usullarini yaratish, ma'lumotlar qonuniyatlaridan qanday qilib olish va empirik ma'lumotlarga tayanadigan mavjud nazariyalarni shakllantirish;
podlannya suttêvogo vídstavannya imkoniyatlar ínstrumentalnyh zabív Data Mining víd teoreticheskie vyagnen í íy galuzí.
Data Mining kelajagiga qisqa muddatli nuqtai nazardan nazar tashlaydigan bo'lsak, ushbu texnologiyaning rivojlanishi biznes bilan bog'liq sohalarga eng to'g'ridan-to'g'ri ekanligi ayon bo'ladi.
Qisqa muddatli nuqtai nazardan, Data Mining mahsulotlari elektron pochta kabi muhim va zarur bo'lishi mumkin va, masalan, xuddi shu tovarlar yoki topilgan chiptalar uchun eng past narxlarni qidirish uchun ko'z yumadi.
Data Mining kelajagining uzoq muddatli istiqboli haqiqatan ham xira - uni aqlli agentlar turli kasalliklarning yangi turlarini, shuningdek, koinotning tabiatini yangi tushunish uchun izlashlari mumkin.
Biroq, Data Mining o'zining potentsial muammosiga ega - tobora ko'proq ma'lumot dunyo bo'ylab, shu jumladan xususiy tabiatda mavjud bo'lib bormoqda va undan ko'proq va ko'proq bilim olish mumkin:
Yaqinda eng yirik "Amazon" onlayn-do'koni janjal markazida bo'lib, "Xaridchilarga tovarlarni sotib olishda yordam berish usullari va tizimlari" patentini olib qo'ydi, bu esa Data kompaniyasining do'zax mahsulotidir. Konchilik, do'kon haqida shaxsiy ma'lumotlarni yig'ish uchun uchrashuvlar. Yangi texnika sotib olish faktlari asosida kelajakdagi xaridlarni bashorat qilish imkonini beradi, shuningdek, vysnovki schodo í̈x tan olinishi samaradorligi. Ushbu texnikaning metama'lumotlari - yuqorida aytib o'tilganlar - mijozlar to'g'risidagi katta hajmdagi ma'lumotlardan, shu jumladan xususiy xarakterdagi (statya, vik, perevagi va boshqalar) olingan. Shu tarzda, xaridorlarning shaxsiy hayoti, shuningdek, ularning oila a'zolari, jumladan, bolalar haqida ma'lumotlar to'planadi. Qolganlari boy erlarning qonunchiligi bilan o'ralgan - u erda to'liq bo'lmagan imkoniyatlar haqida ma'lumotni tanlash faqat otalarning ruxsati bilan.
Xulosa qilinadiki, Data Mining g'alaba qozonadigan muvaffaqiyatli yechim topish kerak, shuning uchun texnologiya rivojlanishini ko'rish uzoq emas. Hamma narsa uchun eng yaxshisi bo'lgan Data Mining texnologiyasini ishlab chiqish muvaffaqiyatli bo'ladigan sohalar quyidagi xususiyatlarga ega bo'lishi mumkin:
bilimlar asosida qaror qabul qilish;
o'zgaruvchan o'rta haqida o'ylash;
mavjud, etarli va muhim ma'lumotlar bo'lishi mumkin;
to'g'ri qaror qabul qilish uchun yuqori dividendlarni ta'minlash.
Isnuyuchi tahlilga o'ting
Uzoq muddatli intizomni tugatish uchun Data Mining ma'lumotlarni tahlil qilishning mutlaqo mustaqil sohasi sifatida tan olinmagan, lekin ba'zida "statistikaning orqa hovlisi" deb ataladi (Pregibon, 1997).
Shu kuni Data Mining-da tongning kichik nuqtasi belgilandi. Klassik tahlilning hurmatini hurmat qiladigan bu sarobni faqat pribíchniklar hurmat qiladi.
Parcha neyron tarmoqlari, genetik algoritmlar, evolyutsion dasturlash, assotsiativ xotira, loyqa mantiq. Ma'lumot qazib olish usullari ko'pincha tilga olinadi statistik usullar(tavsifiy tahlil, korrelyatsiya va regressiya tahlili, faktoriy tahlil, dispersiya tahlili, komponentlar tahlili, diskriminant tahlili, soatlik ketma-ketlik tahlili). Biroq, bunday usullar maqsadlardan osongina ajralib chiqishi mumkin bo'lgan ma'lumotlarni tahlil qilish bo'yicha apriori deklaratsiyalarga imkon beradi. ma'lumotlarni qazib olish(Avvalroq nevydomih noaniq va amaliy jigarrang bilim oshkor).
Data Mining usullarining eng muhim xususiyatlaridan biri ilmiy taqdim etish natijalarini hisoblashdir, bu odamlarga Data Mining vositalarini yutib olish imkonini beradi, chunki ular maxsus matematik tayyorgarlikka ega bo'lishi mumkin. Shu bilan birga, ma'lumotlarni tahlil qilishda statistik usullarning rivojlanishi ko'chmaslik va matematik statistikaning yaxshi volodinnya nazariyasiga olib keldi.
Kirish
Ma'lumotni qazib olish usullari (aka ma'lumotlarda ma'lumotni kashf qilish, stenografiya, KDD) ma'lumotlar bazalari, statistika va razvedka ma'lumotlari tayoqchasida yotadi.
Tarixiy chekinish
Ma'lumotni qazib olish sohasi 1989 yilda Grigoriy P'yatetskiy-Shapiro tomonidan o'tkazilgan seminarda ishlab chiqilgan.
Avvalroq, GTE Labs kompaniyasida ishlayotgan Grigoriy P'yatetskiy-Shapiro savollar berdi: qanday qilib siz qoidalarni avtomatik ravishda bilishingiz mumkin, shunda siz ajoyib ma'lumotlar bazalariga qadamlarni tezlashtirasiz. Shu bilan birga, ikkita atama tarqaldi - Data Mining ("ma'lumotlar kabinasi") va Knowledge Discovery In Data (bu "ma'lumotlar bazasidan bilimlarni kashf qilish" deb tarjima qilinadi).
Muammo bayoni
Buyurtma quyidagi tartibda amalga oshiriladi:
ê katta ma'lumotlar bazasiga erishish;
Maʼlumotlar bazasida “bilim olish” amallari borligi maʼlum qilingan.
Muqaddas "etim" sovg'alarining buyuk majburiyatlaridan payvandlangan bilimlarni ochish usullarini kengaytirish kerak.
"Olingan bilim" nimani anglatadi? Tse mayut buti obov'yazkovo bilim:
avvalroq uyda emas - tobto shunday bilim, yaky yangi bo'lishi mumkin (va vydomosti olib tashlash oldin kabi tasdiqlash emas);
ahamiyatsiz bo'lmagan - shunday qilib, siz shunchaki gaplasha olmaysiz (ma'lumotlarni uzluksiz vizual tahlil qilish yoki oddiy statistik xususiyatlarni hisoblash bilan);
amaliy korisny - tobto takí znannya, yaki doslidnik chi spozhivach uchun tsíníst o'rnatish;
talqin qilish uchun qulay - shuning uchun bilim, chunki uni asl nusxada qisqa shaklda ko'rish oson va mavzu sohasi shartlarida tushuntirish oson.
Bundan tashqari, ma'lumotlarni qazib olish usullarining mohiyati nima uchun aniqlanganligi va ular qaysi ilg'or ma'lumotlarni qazib olish texnologiyalari ma'lumotlar bazasini boshqarish tizimlariga, statistik usullarga va tahlillarga, shuningdek, razvedka usullariga tayanishiga boy.
Ma'lumotlarni qazib olish va asosiy ma'lumotlar
Ma'lumotni qazib olish usullari katta ma'lumotlar bazalarini qazib olish ehtimolini kamaytirishi mumkin. Terining o'ziga xos galusi ma'lumotlar bazasining o'ziga xos "buyukligi" mezoniga ega.
Texnologik ma'lumotlar bazalarining rivojlanishiga ma'lumotlar bazalariga maxsus film - kino so'rovlarini yaratish sabab bo'ldi. Relyatsion ma'lumotlar bazalari uchun SQL ramkasi saqlangan ma'lumotlarni o'zgartirib, solishtirish uchun keng imkoniyatlarga ega. Keyin qo'shimcha tahliliy ma'lumotlarga (masalan, birinchi davrdagi biznes faoliyati to'g'risidagi ma'lumotlarga) ehtiyoj paydo bo'ladi va ma'lum bo'lishicha, an'anaviy relyatsion ma'lumotlar bazasi, yaxshi amaliyot, masalan, operatsion qo'llab-quvvatlashni amalga oshirish. tahlil qilish (ishlab chiqarish bo'yicha tse chaqirdi, uning qoraligi bilan, deb atalmish yaratish qadar. "ma'lumotlar to'plami", ularning tuzilishi universal matematik tahlilni o'tkazishni eng yaxshi tarzda tasdiqlaydi.
Ma'lumotlarni qazib olish va statistika
Ma'lumotlarni qazib olish usullari matematik usullarga va ma'lumotlarni qayta ishlashga, shu jumladan statistik usullarga asoslangan. Sanoat yechimlarida, ko'pincha, bunday usullar to'g'ridan-to'g'ri Data Mining paketlariga kiritilgan. Shu bilan birga, shuni ta'kidlash kerakki, ko'pincha tahlil natijalarini ma'lumotlarni qazib olishning maqsad va vazifalaridan farqlash uchun sharhlash muhimdir. Prote, statistik usullar g'alaba qozonadi, o'sha zastosuvannya kuzatish qo'shiq bosqichlari ko'proq bilan ajratilgan.
Ma'lumotlarni qazib olish va razvedka
Ma'lumotlarni qazib olishning qanday usullaridan foydalanishni bilish modellar. Modellar qanday ishlaydi:
assotsiativ qoidalar;
eritma daraxti;
klasterlar;
matematik funktsiyalar.
Bunday modellarni rag'batlantirish usullari deb ataladigan narsaning pastki qismiga ko'tarildi. "parcha razvedka".
menejer
Data Mining usullari bilan buzilgan vazifalar tavsiflarga bo'linish uchun qabul qilinadi (ing. tavsiflovchi) that peredbachuvalni (ing. bashorat qiluvchi).
Tasviriy topshiriqlar uchun aniq biriktirilgan qonuniyatlarning dastlabki tavsifini berish muhimroqdir, xuddi topshiriqlarni o'tkazishda bo'lgani kabi, birinchi navbatda tinch kayfiyatni o'tkazish uchun oziq-ovqat mavjud, ular uchun esa yo'q.
Ta'riflashdan oldin vazifalar:
chi naqshlarining assotsiativ qoidalarini izlash (zrazkiv);
ob'ektlarni guruhlash, klaster tahlili;
pobudova regressiya modeli.
O'tkazishdan oldin vazifani ko'rish kerak:
ob'ektlarni tasniflash (sinflarni ketma-ket belgilash uchun);
regressiya tahlili, xronometraj qatorlarini tahlil qilish.
Algoritmlarni o'rganish
Tasniflash vazifasi uchun kirish va chiqish vektorlaridan qasos olish uchun ovoz berishdan keyin modelni o'qitish (o'qitish) amalga oshiriladigan "o'qituvchi bilan trening" ga xosdir.
Klaster va assotsiatsiya vazifasi uchun "o'qituvchisiz o'qitish" o'rnatiladi, bu holda model turli xil tanlovlarda amalga oshiriladi, unda chiqish parametri yo'q. Chiqish parametrining qiymati ("klasterga ko'rinadi ...", "vektorga o'xshash ...") ishga tushirish jarayonida avtomatik ravishda tanlanadi.
Qisqa vazifalar uchun tavsif odatiy hisoblanadi hafta ichi podylu kirishda va hafta oxiri vektorlari. K.Pirsonning asosiy komponentlar usuli haqidagi klassik ishidan boshlab, asosiy e'tibor ma'lumotlarning yaqinlashishiga qaratilgan.
Ko'proq ma'lumot olish
Biz Data Mining usullaridan foydalangan holda vazifalarni ishlab chiqishda odatiy bosqichlarni ko'ramiz:
gipotezani shakllantirish;
Ma'lumotlarni tanlash;
Ma'lumotlarni tayyorlash (filtrlash);
modelni tanlash;
Modelning parametrlarini va o'qitish algoritmini tanlash;
Navchannya modeli (modeldagi boshqa parametrlarni avtomatik qidirish);
Boshlanish sifatini tahlil qilish, 5-bet yoki 4-betga qoniqarsiz o'tish sifatida;
Aniqlangan naqshlarni tahlil qilish, 1, 4 va 5-bandlarga qoniqarsiz o'tish sifatida.
Ma'lumotlarni tayyorlash
Data Mining-da algoritmlarni sinab ko'rishdan oldin, ma'lumotlar to'plamini tayyorlash kerak. Shunday qilib, IAD faqat ushbu qonuniyatlarning mavjudligini ko'rsatishi mumkinligi sababli, aybdor onaning bir tomonidagi ma'lumotlar etarli, shuning uchun bu qonuniyatlar mavjud, aks holda ular etarlicha ixcham bo'lib, tahlil qilish yoqimli soatni oladi. Ko'pincha, ma'lumotlar namoyishi sifatida, ma'lumotlar to'plami yoki ko'rgazmalari mavjud. Intellektual ma'lumotlarni tahlil qilish uchun klasterlashdan oldin boy ma'lumotlarni tahlil qilish uchun tayyorgarlik zarur.
Tozalangan ma'lumotlar belgilar to'plamiga (yoki vektorlar, chunki algoritm faqat belgilangan o'lchamdagi vektorlar bilan ishlashi mumkin), ehtiyotkorlik belgilarining bir to'plamiga qisqartiriladi. Belgilar to'plami ular haqidagi farazlarga o'xshash tarzda shakllantiriladi, chunki bu ma'lumotlarning belgilari qayta ishlash intensivligini zaruriy hisoblash uchun rozrahunkaning kuchini yuqori darajada bashorat qilishi mumkin. Misol uchun, 10 ming ofset 100 100 piksel o'lchamiga ega bo'lgan shaxsning qora-oq tasviri. sirih ma'lumotlarining bir qismi. Xushbo'y hid vektorga aylantirilishi mumkin, bu kompaniyaning ko'zlari tasvirida ko'rsatilgan yo'l belgisi. Natijada, 10 mingdan majburiy ma'lumotlarning o'zgarishi mavjud. lager kodlari ro'yxatiga bit, ma'lumotlarni tahlil qilish majburiyatlarini sezilarli darajada o'zgartirib, keyin va bir soatlik tahlil.
Bir qator algoritmlar etishmayotgan ma'lumotlarni qayta ishlashlari mumkin, bashorat qilish kuchiga ega bo'lishi mumkin (masalan, mijozning kunduzgi xaridlari aniq). Aytaylik, assotsiativ qoidalar usuli yordamida (inglizcha) rus. vektorlar va belgilar emas, balki o'zgaruvchan o'lchamlar to'plami qayta ishlanadi.
Funktsiyani tanlash, tahlil qilish usuli bo'lganligi sababli eskirgan; "To'g'ri" funktsiyani tanlash ma'lumotlarni muvaffaqiyatli intellektual tahlil qilish uchun asosiy ahamiyatga ega bo'lishi mumkin.
Ogohlantirishlar ikki toifaga bo'linadi - dastlabki ishga qabul qilish va testli ishga olish. Dastlabki g'alabalar to'plami Data Mining algoritmini o'rganish uchun ishlatiladi va testlar to'plami ma'lum naqshlarni qayta tekshirishdan iborat.
Div. shuningdek
Eslatmalar
Adabiyot
|