Alomat
|
Interval chegaralari
|
Mezon qiymati
|
survival
|
[0.25, 7.5](7.5, 57]
|
0.692
|
wall-motion-score
|
[5.5, 16.5](16.5, 39]
|
0.315
|
epss
|
[0, 14.3](14.3, 40]
|
0.331
|
age-at-heart-attack
|
[35, 64](64, 86]
|
0.320
|
lvdd
|
[2.32, 5.15](5.15, 6.74]
|
0.304
|
wall-motion-index
|
[1, 1.375](1.375, 3]
|
0.324
|
fractional-shortening
|
[0.01, 0.18](0.18, 0.61]
|
0.297
|
mult
|
[0.28, 0.812](0.812, 1.003]
|
0.253
|
Aniqlangan qonuniyatlar
Agar А u holda B ( ),
bu yerda – obyektni A shartda B o’rinligi bo’lishiga ishonch (tegishlilik fuksiyasi).
Xulosa qoidalari:
Agar u holda (0.716);
Agar u holda (0.315);
Agar u holda (0.331);
Agar u holda (0.32);
Agar u holda (0.304);
Agar u holda (0.324);
Hisoblash experimenti
Fisher irisi tanlanmasi
150
5
1 3 sinflar
1- Setosa
2- Versicolor
3- Virginica
Gul atrofining tashqi hissasining uzunligi (sepal length)
Gul atrofining tashqi hissasining kengligi (sepal width)
Gul atrofining ichki hissasining uzunligi (petal length)
Gul atrofining ichki hissasining kengligi (petal width)
1 5.7 4.4 1.5 0.4
1 5.5 4.2 1.4 0.2
1 5.2 4.1 1.5 0.1
1 5.8 4.0 1.2 0.2
1 5.4 3.9 1.7 0.4
1 5.4 3.9 1.3 0.4
1 5.1 3.8 1.5 0.3
1 5.1 3.8 1.9 0.4
1 5.1 3.8 1.6 0.2
1 5.7 3.8 1.7 0.3
1 5.1 3.7 1.5 0.4
1 5.3 3.7 1.5 0.2
1 5.4 3.7 1.5 0.2
1 4.6 3.6 1.0 0.2
1 4.9 3.6 1.4 0.1
1 5.0 3.6 1.4 0.2
1 5.0 3.5 1.3 0.3
1 5.0 3.5 1.6 0.6
1 5.1 3.5 1.4 0.2
1 5.1 3.5 1.4 0.3
1 5.2 3.5 1.5 0.2
1 5.5 3.5 1.3 0.2
1 4.6 3.4 1.4 0.3
1 4.8 3.4 1.6 0.2
1 4.8 3.4 1.9 0.2
1 5.0 3.4 1.5 0.2
1 5.0 3.4 1.6 0.4
1 5.1 3.4 1.5 0.2
1 5.2 3.4 1.4 0.2
1 5.4 3.4 1.7 0.2
1 5.4 3.4 1.5 0.4
1 5.0 3.3 1.4 0.2
1 5.1 3.3 1.7 0.5
1 4.4 3.2 1.3 0.2
1 4.6 3.2 1.4 0.2
1 4.7 3.2 1.3 0.2
1 4.7 3.2 1.6 0.2
1 5.0 3.2 1.2 0.2
1 4.6 3.1 1.5 0.2
1 4.8 3.1 1.6 0.2
1 4.9 3.1 1.5 0.1
1 4.9 3.1 1.5 0.2
1 4.3 3.0 1.1 0.1
1 4.4 3.0 1.3 0.2
1 4.8 3.0 1.4 0.1
1 4.8 3.0 1.4 0.3
1 4.9 3.0 1.4 0.2
1 5.0 3.0 1.6 0.2
1 4.4 2.9 1.4 0.2
1 4.5 2.3 1.3 0.3
2 6.0 3.4 4.5 1.6
2 6.3 3.3 4.7 1.6
2 5.9 3.2 4.8 1.8
2 6.4 3.2 4.5 1.5
2 7.0 3.2 4.7 1.4
2 6.7 3.1 4.4 1.4
2 6.7 3.1 4.7 1.5
2 6.9 3.1 4.9 1.5
2 5.4 3.0 4.5 1.5
2 5.6 3.0 4.5 1.5
2 5.6 3.0 4.1 1.3
2 5.7 3.0 4.2 1.2
2 5.9 3.0 4.2 1.5
2 6.1 3.0 4.6 1.4
2 6.6 3.0 4.4 1.4
2 6.7 3.0 5.0 1.7
2 5.6 2.9 3.6 1.3
2 5.7 2.9 4.2 1.3
2 6.0 2.9 4.5 1.5
2 6.1 2.9 4.7 1.4
2 6.2 2.9 4.3 1.3
2 6.4 2.9 4.3 1.3
2 6.6 2.9 4.6 1.3
2 5.7 2.8 4.5 1.3
2 5.7 2.8 4.1 1.3
2 6.1 2.8 4.0 1.3
2 6.1 2.8 4.7 1.2
2 6.5 2.8 4.6 1.5
2 6.8 2.8 4.8 1.4
2 5.2 2.7 3.9 1.4
2 5.6 2.7 4.2 1.3
2 5.8 2.7 4.1 1.0
2 5.8 2.7 3.9 1.2
2 6.0 2.7 5.1 1.6
2 5.5 2.6 4.4 1.2
2 5.7 2.6 3.5 1.0
2 5.8 2.6 4.0 1.2
2 5.1 2.5 3.0 1.1
2 5.5 2.5 4.0 1.3
2 5.6 2.5 3.9 1.1
2 6.3 2.5 4.9 1.5
2 4.9 2.4 3.3 1.0
2 5.5 2.4 3.8 1.1
2 5.5 2.4 3.7 1.0
2 5.0 2.3 3.3 1.0
2 5.5 2.3 4.0 1.3
2 6.3 2.3 4.4 1.3
2 6.0 2.2 4.0 1.0
2 6.2 2.2 4.5 1.5
2 5.0 2.0 3.5 1.0
3 7.7 3.8 6.7 2.2
3 7.9 3.8 6.4 2.0
3 7.2 3.6 6.1 2.5
3 6.2 3.4 5.4 2.3
3 6.3 3.4 5.6 2.4
3 6.3 3.3 6.0 2.5
3 6.7 3.3 5.7 2.1
3 6.7 3.3 5.7 2.5
3 6.4 3.2 5.3 2.3
3 6.5 3.2 5.1 2.0
3 6.8 3.2 5.9 2.3
3 6.9 3.2 5.7 2.3
3 7.2 3.2 6.0 1.8
3 6.4 3.1 5.5 1.8
3 6.7 3.1 5.6 2.4
3 6.9 3.1 5.4 2.1
3 6.9 3.1 5.1 2.3
3 5.9 3.0 5.1 1.8
3 6.0 3.0 4.8 1.8
3 6.1 3.0 4.9 1.8
3 6.5 3.0 5.8 2.2
3 6.5 3.0 5.5 1.8
3 6.5 3.0 5.2 2.0
3 6.7 3.0 5.2 2.3
3 6.8 3.0 5.5 2.1
3 7.1 3.0 5.9 2.1
3 7.2 3.0 5.8 1.6
3 7.6 3.0 6.6 2.1
3 7.7 3.0 6.1 2.3
3 6.3 2.9 5.6 1.8
3 7.3 2.9 6.3 1.8
3 5.6 2.8 4.9 2.0
3 5.8 2.8 5.1 2.4
3 6.2 2.8 4.8 1.8
3 6.3 2.8 5.1 1.5
3 6.4 2.8 5.6 2.1
3 6.4 2.8 5.6 2.2
3 7.4 2.8 6.1 1.9
3 7.7 2.8 6.7 2.0
3 5.8 2.7 5.1 1.9
3 5.8 2.7 5.1 1.9
3 6.3 2.7 4.9 1.8
3 6.4 2.7 5.3 1.9
3 6.1 2.6 5.6 1.4
3 7.7 2.6 6.9 2.3
3 4.9 2.5 4.5 1.7
3 5.7 2.5 5.0 2.0
3 6.3 2.5 5.0 1.9
3 6.7 2.5 5.8 1.8
3 6.0 2.2 5.0 1.5
Intervallarga bo’lish natijasi
Sepal length:
[0..51..149] [4,300..5,400..7,900] w=0,724{45,7} {5,93}
Sepal width:
[0..112..149] [2,000..3,300..4,400] w=0,493{19,94} {31,6}
Petal length:
[0..49..149] [1..1,9..6,9] w=1, {50,0} {0,100}
Petal width:
[0..49..149] [0,1..0,6..2,5] w=1{50,0} {0,100}
5-mavzu: Alomatlarni saralash
Alomatlarni saralash (feature selection) – bu mashina algoritmlari yordamida u yoki bu alomatning muhimligini baholash va kerakmaslarini o’chirib tashlash.
Ko'p hollarda berilganlar to’plami ko'p sonli alomatlar o'z ichiga olgan bo’lib, ularning soni bir necha yuz yoki hatto minglab bo’lishi mumkin. Mashinani o'rganish modelini yaratishda amalda qancha sondagi alomatlar muhimligi oldindan aniq bo'lmaydi (ya'ni, maqsadli o'zgaruvchi bilan aloqasi bor) va qaysi birlai ortiqcha (yoki shovqin).
Ortiqcha alomatlarni o’chirish berilganlarni yaxshi tushinishga imkon beradi, hamda modelni sozlash vaqtini qisqartirish, uning aniqligini oshirish va izohlashi engillashtiradi. Ayrim hollarda ushbu masala juda ham muhim rol kashf etishi mumkin, masalan, alomatlarning optimal to’plamini topish tadqiq qilinayotgan muammoning asosida yotuvchi mexanizmni ochib berishi mumkin. Bu bank reytingi, firibgarlikni aniqlash yoki tibbiy diagnostika testlari kabi turli metodologiyalarni ishlab chiqish uchun foydali bo'lishi mumkin.
Berilganlarni tahlil qilishda alomatlarni to’g’ri saralash quyidagilarga imkon beradi:
mashinali o’qituvchili va o’qituvchisiz o’ragtish modellari sifatini oshiradi;
o’rganish vaqtini kamaytiradi va talab qilinadigan hisoblash quvvatini pasaytiradi;
kirivchi berilganlarning yuqori o’lchamlarida “o’lcham lan’ati” ni yumshatish imkonini beradi.
Alomatlar muhimligini baholash model natijalarini izohlash uchun zarur bo’ladi.
O’qituvchili va o’qituvchisiz modellar
O’qituvchili saralash algoritmlari o’qituvchili o’rgatish masalalri ishlash sifatini yaxshilash uchun (masalan, klassifikatsiya va regressiya masalalarida) mos keluvhi alomatlarni aniqlash imkonini beradi. Bu algoritmalar uchun nishon qo’yilgan berilganlar kerak bo’ladi. Nishonlanmagan berilganlar uchun ham turli mezonlar asosida alomatlarni saralashning bir qancha usullari mavjud: dispersiya, entropiya, lokal o’xshashlik saqlab qolish qobiliyati va hakoza.
O’qituvchisiz o’rgatishning evristik usullari yordaimida aniqlangan relevant alomatlar o’qituvchili o’rgatish modellarida ham qo’llanilib, berilganlardagi, maqsad o’zgaruvchilar bilan korrelaytsiyadan tashqari boshqa bir patternlarni aniqlash imkonini beradi.
Alomatlarni tanlash usullari odatda 4 toifaga bo'linadi: filtrlar (filtr usullari), joylangan usullar (embedded methods), o'ramlar (wrapper methods) va gibrid usullar. Tegishli usulni tanlash har doim ham aniq emas va vazifa va mavjud berilganlar bog'liq bo’ladi.
Filtrlash usullari
O’qituvchili o’rgatish
Relief usuli. Ushbu usul tasoddifiy ravishda tanlanmadan obrazlarni tanlaydi va u bilan ikkita eng yaqin o’z sinfidagi va qarama-qarshi sinfdagi obyektlar farqlanishlari asosida har bir alomat muhimligini qayta hisiblaydi. Agar bir sinfdagi ikkita obyektlardagi alomat qiymatlari farqlansa, uning muhimligi pasaydi va aksincha, turli sinf obyektlari uchun farqlanish kuzatilsa, alomat muhimligi oshadi.
Alomat vazni kamayadi, agar obyekt qiymatining shu sinf obyektiga nisbatan farqlanishi boshqa sinfdagi obyektga nisbatan farqlanishdan katta bo’lsa, aks holda vazn oshadi.
Filtrlash usullari modelni o'rgatishdan oldin qo'llaniladi va odatda nisbatan past hisoblash narxiga ega. Bularga vizual tahlil (masalan, faqat bitta qiymatga ega bo'lgan alomatni yoki aksariyat qiymatlari o’tkazib yuborilgan (to’ldirilmagan) alomatlarni olib tashlash, yarim statistik mezonlardan foydalangan holda alomatlarni baholash (dispersiya, korrelyatsiya, va boshqalar) va ekspert baholash (ma'nosi bo’yicha to'g'ri kelmaydigan yoki nokorrekt qiymatli alomatlarni o’chirish).
Alomatlarning yaroqliligini baholashning eng oddiy usuli - bu berilganlarni razvedka tahlili bo’lib u alomatlarni quyidagi parametrlar bo’yicha alomatlarni saralab oladi:
• o’tkazib yuborilgan qiymatlar soni (o’tkazib yuborilgan qiymatlar soni bo’sag’adan katta bo’lsa);
• korrelyatsiya koeffitsienti (korrelyatsiya koeffitsienti bo’sag’a qiymatdan katta bo'lgan alomatlar olib tashlanadi);
• variativlik (bitta qiymatdan iborat alomatlar o'chiriladi);
• alomatlar ahamiyatini baholash va modelda past ahamiyatga ega alomatlar o’chiriladi.
Nisbatan murakkab usullarda dispersiyasi berilgan qiymatdan kichik alomatlar saralab olinadi. Boshqa alogoritmlar statistik testlardan foydalangan holda prediktorlarlarning maqsad o’zgaruvchi bilan bog’liqlini baholashga asoslangan bo’lib, ko’rsatilgan sondagi va berilgan mezon eng mos keladiganlarni saralab olish imkonini beradi. Statistik test sifataida F-testi (Fisher testi) usuli ishlatiladi.
F-test usuli ikkita massiv (ikkita alomatlar qiymatlari ketma-ketligi) o’rtasida dispersiyalar farqlanishi ahamiyatsiz ekanligining ehtimallogini beradi. Shunga ko’ra F-test usuli maqsad o’zgaruvchi va prediktorllar o’rtasida chiziqli bog’liqlik darajasini baholaydiva uni chiziqli modellarga qo’’lash maqsadga muvofiq hisoblanadi.
Dostları ilə paylaş: |