MO’ning ehtimolli tizimlarida obyektlarni tanib olish masalalarini yechishda
ehtimolli o’xshashlik o’lchovlaridan foydalaniladi va belgilar bilan sinflar
orasidagi bog’liqlik e’tiborga olinadi.
MO’ning mantiqiy tizimlarda belgilar sifatini mantiqiy qiymatlar qaraladi va
bu belgilar asosida mulohazalar tuziladi. Bu mulohazalar Bul tenglamalar tizimi
ko’rinishida ifodalanga bo’lib , o’zgaruvchilar sifatini belgilar va noma’lum
qiymatlar sinflar deb qaraladi.
MO’ning strukturali tizimlarda tanib olish masalalarining yechish usuli
sifatida obyektlarni tavsiflovchi so’zlarning Grammatik tahlili qaraladi. Sinflar
sifatida obyektlarni tavsiflovchi so’zlarning to’plami qaraladi.
MO’ning kombinatsiyalashgan tizimlarda tanib olish masalalarining
yechish usuli sifatida mahsus baholarni hisoblash usullari nazarda tutiladi .
sinflarni tashkil etuvchi obyektlar aralash belgilardan , ya’ni determinalli,
strukturali, ehtimolli va mantiqiy belgilardan iborat bo’ladi.
Regulyarizatsiya (англ. regularization) (tartibga solish)- statistikada, mashinani
o'rganishda, teskari vazifalar nazariyasida-noto'g'ri vazifani hal qilish yoki qayta
o'qitishni oldini olish uchun vaziyatga qo'shimcha cheklovlar qo'shish usuli.
Ko'pincha, bu ma'lumot modelning murakkabligi uchun jarima shakliga ega.
Regulyarizatsiya shuningdek, neyron tarmoqlarda ham juda katta tarmoq
og'irliklari va qayta o'qitish bilan kurashish uchun ishlatiladi. Biroq, bu holda, L1-
regulyator yordamida koeffitsientlarni nollash chiziqli modellarda bo'lgani kabi,
"belgilarni tanlash" ma'nosini ham o'z ichiga olmaydi. Afsuski, regulyarizatsiya
parametrlarning sonini kamaytirmaydi va tarmoq tuzilishini soddalashtirmaydi.
Neyron tarmog'i uchun ampirik xavfga nisbatan jazo muddatini qo'shib
qo'yishdan tashqari, qayta o'qitishga qarshi kurashning yana bir usuli — tarmoqni
yupatish (ingliz tili. xato funktsiyasi o'zgarmaydi bo'lsa, tarmoq yanada
soddalashtirish mumkin — qoida asosida, tarmoq soddalashtirish qaysi davomida
dropout).
Regulyarizatsiya qayta jihozlashni kamaytirish orqali modellarni yanada foydali
qilishi mumkin.
Regulyarizatsiya sizning neyron tarmoqingizning ish faoliyatini sezilarli darajada
oshirishi, qayta jihozlashni kamaytirish mumkin.
Qayta o'qitish-bu neyron tarmoq umumiy qo'llaniladigan principlarni o'rganish
o'rniga ta'lim ma'lumotlarining noyob xususiyatlarini (masalan, o'quv
ma'lumotlarining shovqini) yodlashni boshlaydigan bir hodisa. "Qayta o'qitish"
modeli o'quv ma'lumotlarida yuqori ko'rsatkichlarga ega bo'ladi, ammo sinovdan
o'tgan ma'lumotlarning yomon ishlashi, ya'ni bu model haqiqiy dunyoda foydali
bo'lmaydi, chunki u hech qachon ko'rmagan ma'lumotlarga yaxshi ishlamaydi
oldin. Neyron tarmoq modellarining butun nuqtasi yangi ma'lumotlar bilan haqiqiy
muammolarni hal qilishdir, chunki biz deyarli foydali modelni olish uchun qayta
jihozlashdan qochmoqchimiz.
Sinflash vazifasida qayta jihozlash misoli:
Ushbu sinflash vazifasida biz qizil nuqtalarni ko'kdan ajratib turadigan chiziqni
o'rganishni istaymiz. Qora chiziq kosmosdagi ko'k va qizil nuqtalarning
joylashuvining umumiy tamoyilini aks ettiradigan yaxshi tasniflovchi hisoblanadi.
Yashil chiziq qizil va ko'k nuqtalarning aniq o'quv to'plamiga juda xos bo'lganligi
sababli, qayta jihozlashdan ta'sirlangan tasnifni ifodalaydi.
Yashil klassifikator chizig'i ko'zga ko'rinmas testlar to'plamida qanchalik yomon
ishlayotganiga e'tibor bering, hatto ko'zga ko'rinmas testlar to'plami ko'k va qizil
nuqtalarning umumiy joylashuvi sxemasiga mos keladi. Shuni ham ta'kidlash
kerakki, hech qanday qoplamaga ega bo'lmagan qora chiziq hali ham sinov
to'plamida yaxshi ishlaydi:
Qayta jihozlashning eng haddan tashqari versiyasi qachon sodir bo'ladi neyron
tarmoqbuning barcha mashg'ulotlariga mos keladi. Bu neyron tarmoq juda ko'p
parametrlarga ega bo'lganda va juda uzoq vaqt davomida o'qitilganda sodir bo'lishi
mumkin.
Regulyarizatsiya ta'lim algoritmiga barqarorlikni qo'shib, ma'lumotlar va o'quv
jarayonlariga nisbatan kamroq sezgir bo'ladi. Bizning baholash funktsiyamizni
taqqoslash uchun biz foydalana oladigan haqiqiy xususiyatni bilmasligimiz yoki
bilmasligimiz sababli, eng yaxshi strategiya o'quv ma'lumotlariga (qayta jihozlash)
juda yaxshi mos keladigan juda murakkab modelni yaratish va uni tartibga
solishdir. Tartibga solishdan foydalanib, biz umumlashma xatosini kamaytirishga
harakat qilamiz va bu jarayonda o'rganish xatosining oshishiga olib kelishi
mumkin va bu odatiy holdir, chunki biz modelning qanchalik yaxshi
umumlashtirilishiga qiziqamiz. Regularizatsiya yordamida biz juda murakkab
modelni qaytarib olishga harakat qilmoqdamiz, bu esa yaxshi modelga qayta
moslashishga, ofsetlarni oshirishga va farqni kamaytirishga olib keladi. Bu
murakkab modeldagi katta parametrlarga ega bo'lgan va oddiy model kichik
parametrlarga ega bo'lgan taxminga asoslanadi.
Regulyarizatsiya-qayta jihozlashni bartaraf etishning samarali usuli. Haqiqiy
ma'lumot taqsimotini bilmasligimiz sababli, ampirik taqsimotga asoslangan
ampirik xavf qayta o'qitishga moyil. Shunday qilib, eng yaxshi strategiya, albatta,
ta'lim ma'lumotlariga juda mos keladi va keyin modelni yaxshi umumlashtirishi
uchun Regulyarizatsiya usulini qo'llaydi. L2 parametrini tartibga solish, Dropout
bilan birga, mashinani o'rganishda eng ko'p ishlatiladigan regulyarizatsiya usullari
hisoblanadi.
2. Regulyarizatsiya uchun ishlatiladigan ba'zi usullar
L2 parametrini regulyarizatsiya: shuningdek, vazn yo'qotish sifatida ham tanilgan,
bu usul L2 me'yorini og'irlik stavkalarini boshlang'ich nuqtaga olib kelish uchun
maqsadli funkciyaga qo'shib qo'yadi. Bu usul noldan bir xil nisbatda barcha
og'irliklari kesadi-da; ammo, bu aniq nol bo'lishi uchun hech qanday vazn bor hech
qachon.
L1 (Lasso) parametrini regulyarizatsiya: bu funktsiyani tanlash usuli sifatida
qaralishi mumkin, chunki; l2ni tartibga solishdan farqli o'laroq, ba'zi og'irliklar
aslida nolga teng bo'ladi. L1 me'yorini maqsadli funktsiyaga qo'shib, barcha
og'irliklarni bir xil miqdorda kamaytiradi.
Chiqish: otpusk qoplarga qadoqlash texnikasi bir yondashuv sifatida qaralishi
mumkin. Har bir yinelemede tasodifiy ravishda har bir qatlamda ba'zi neyronlarni
o'chirib qo'yamiz va bu neyronlarni to'g'ridan-to'g'ri va teskari tarqatishda
ishlatmaymiz. Bu neyron tarmog'ini og'irliklarni taqsimlashga va muayyan
neyronlarga e'tibor bermaslikka olib keladi, chunki u har bir iteratsiyada qaysi
neyronlarning paydo bo'lishini hech qachon bilmaydi. Shunday qilib, bu har bir
iteratsiya bo'yicha turli modellarni o'qitish sifatida qaralishi mumkin. Bundan
tashqari, biz har bir iteratsiya bo'yicha bir nechta neyronlarni olib tashlaganimiz
sababli, bu tarmoqning pasayishiga olib keladi, bu esa o'z navbatida tarmoqni
soddalashtirishni anglatadi.
Kattalashtirish: ta'lim misollarini ishlatib, noto'g'ri ma'lumotlarni qo'shing va
tasvirni tanib olishda o'lchovni o'zgartirish va tasvirni aylantirish kabi buzilishlarni
qo'shing. Fikr, yaxshi ishlashga erishish uchun modelni ko'proq ma'lumotlarga
o'rgatish har doim ham yaxshi. Shuni esda tutingki, ilg'or misollar modelga
mustaqil misollar sifatida juda ko'p ma'lumot qo'shmaydi, ammo bu ko'proq
ma'lumotni yig'ish mumkin bo'lmaganda hali ham to'g'ri alternativ.
Erta to'xtash: bu usul xarajat funkciyasini optimallashtirishga va uni tartibga
solishga harakat qiladi, shuning uchun u kamroq umumlashma xatosiga ega. Bu
har bir iteraciya bo'yicha tasdiqlash xatosini yozib olish uchun ishlaydi. Tekshirish
xatosi yaxshilansa, biz parametrlarning nusxasini saqlaymiz va optimallashtirish
algoritmi tugamaguncha davom etamiz. Hisoblash vaqti va resurslari biz uchun
muammo bo'lsa, bu yaxshi usul.
Biz L2 parametrlarini tartibga solishni ko'rib chiqamiz.
L2 parametrini regulyarizatsiyalash.
Odatda biz ofsetlarni tartibga solmaymiz va faqat og'irliklarni tuzatmaymiz.
Hessen matritsasidan va o'z qadriyatlaridan va o'z vektorlaridan vazn
yo'qotishining sezuvchanligini ko'rish uchun foydalanishimiz mumkin. Wi ning
og'irligi (λi / λi + α) bilan o'zgartiriladi, bu erda λi (o'z qiymati) bu yo'nalishda
Gessian matritsasining sezuvchanligini (o'z vektori) va a tartibga soluvchi
giperparametrni o'lchaydi. Shuning uchun,
Agar λi
≫ α a qiymati funktsiyasi bu yo'nalishda juda sezgir bo'lsa va tegishli
og'irlik xarajatlarni sezilarli darajada kamaytirsa - juda kam (qisqaradi).
Agar λi
≪ α a qiymati funktsiyasi bu yo'nalishda sezgir bo'lmasa va tegishli og'irlik
qiymatning sezilarli pasayishiga olib kelmasa, u nolga kamayadi (kamayadi).
Keyin maqsadli funktsiya (ikkilik o'zaro faoliyat entropiya) o'zgaradi:
Uchun:
Bundan tashqari, yangi gradyanlar va yangilanish tengligi bo'ladi:
Shuni esda tutingki, bu erda a-o'rganish tezligi va λ -tartibga soluvchi
giperparametr. λ oshgani sayin, quyidagi ekstremal holatlar bilan ofset kuchayadi
(va model kamroq moslashuvchan bo'ladi) (qarang: shakl 2):
λ = 0, tartibga solinmagan holda.
λ → ∞, model juda oddiy bo'lib, barcha og'irliklar aslida nolga teng. Regressiya
holatida biz faqat maqsadli o'zgaruvchining o'rtacha qiymatiga teng bo'lgan
ushlashni olamiz.
Ba'zan L2 parametrining regulyatsiyasi normal tenglama yordamida qanday
ishlashini ko'rish foydali bo'ladi. Oddiy talab:
Bu degani:
Dispersiyaga λ qo'shilishi vazni kamaytiradi
X ^ TX qayta tiklanmasa ham, har bir funktsiyaga λ qo'shilishi uni to'liq darajadagi
matritsaga aylantiradi.
Regulyarizatsiyabizni umumlashma xatosini kamaytirishga qanday yordam
berishini ko'rsatish uchun cats_vs_dogs ma'lumotlar to'plamidan foydalanamiz.
Ma'lumotlar to'plamida mushuk va itlar uchun tasvirlar mavjud. Rasmda mushuk
yoki it borligini sinflash uchun neyron tarmoqni yaratishga harakat qilamiz. Har bir
tasvir RGB o'lchamida 64 x 64 pikselga ega.
Biz yozgan xususiyatlardan foydalanamiz "neyron kodlash tarmog'i - to'g'ridan-
to'g'ri tarqatish va teskari tarqatish" parametrlarni ishga tushirish, to'g'ridan-to'g'ri
tarqatishni hisoblash, o'zaro faoliyat entropiya, gradyanlar va boshqalar.
Keling, ma'lumotlarni import qilaylik va shaklni, shuningdek, o'quv to'plamidan
mushukning namunasini ko'rib chiqaylik.
O‘qitish ma’lumotlar o‘lchamlari:
O‘lcham X: (12288, 209), o‘lcham Y: (1, 209)
Test ma’lumotlar o‘lchamlari:
Hajmi X: (12288, 50), hajmi Y: (1, 50)
O'quv to'plamida 209 ta misol va test to'plamida 50 ta misol mavjud. Keling,
ko'p qatlamli neyron tarmoqni yozishga yordam beradigan barcha yordamchi
funktsiyalarni yozamiz.
L2 va L1 parametrlarini regulyarizatsiya kabi regulyarizatsiya usullarining
bevosita taxminlaridan biri parametrlarning qiymati nolga teng bo'lishi va barcha
parametrlarni nolga kamaytirishga harakat qilishdir. Bu shuni anglatadiki, ta'lim
ma'lumotlariga juda yaxshi amal qilishdan qochish kerak, bu esa o'quv algoritmini
ko'rinmas ma'lumotlarga nisbatan foydasiz bo'lgan ba'zi shovqinlarni ta'kidlashga
olib keladi.
Neyron tarmoqlarni regulyarizatsiyalash
Birinchidan, tartibga solinmagan holda neyron tarmoqni quramiz, keyin
regulyarizatsiyabilan, qaysi biri kamroq umumlashma xatosiga ega ekanligini
ko'rishimiz mumkin. λ eng yaxshi natijalarni olish uchun moslashtirilishi
kerakligini unutmang, lekin bu erda kontseptsiyani ko'rsatish uchun
o'zboshimchalik bilan qiymatni tanlaymiz. Har ikki neyron tarmoqlari bo'ladi 2 har
bir yashirin qatlami bor qaerda yashirin qatlamlari 5 ta.
# Qatlam ulchamlarini sozlash
layer_dims=X_train. shape0,5,5,1
# poezd NN
parametrlar = model_with_regularization (X_train, Y_train, layer_dims,
learning_rate=0,03, num_epochs=2500, print_cost
=True, hidden_layers_activation_fn="tanh", lambd=0)
print (« O‘qitishning aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar,
Y_train, «tanh»)-7:))
print («Testning aniqlik darajasi: {}». format (aniqlik (X_test, parametrlar, Y_test,
«tanh») -7:))
Narxi 100 iteratsiyadan so‘ng: 0.6555634398145331
Narxi 200 iteratsiyadan so‘ng: 0,6467746423961933
Narxi 300 iteratsiyadan so‘ng:0.6446638811282552
Narxi 400 iteratsiyadan so‘ng: 0.6441400737542232
O‘qitishning aniqlik koeffitsienti: 82,30%. Testning aniqligi:78,00%.
Treningning aniqligi 82,30%, sinov aniqligi esa 78%. Ta'lim va test aniqligi
o'rtasidagi farq juda katta emas, ya'ni bizda juda ko'p narsa yo'q. Shuning uchun,
kichik Regulyarizatsiyayordam berishi mumkin, masalan λ = 0,02. Amaliyotlarni
tavsiya etadigan ls qiymatlari: 0,02, 0,04, 0,08, 0,16, 0,32, 0,64, 1,28, 2,56, 5,12,
10,24.
#Poezd NN s regulyarizatsiey
parametrlar = model_with_regularization (X_train,
Y_train,layer_dims,learning_rate=0,03,num_epochs=2500,print_cost
= True, hidden_layers_activation_fn = "tanh", lambd = 0,02)print («O‘qitishning
aniqlik darajasi: {}». format (aniqlik (X_train, parametrlar,Y_train,«tanh»)-7:))
print («Testning aniqlik darajasi: {}». format (aniqlik
(X_test,parametrlar,Y_test,«tanh») -7:))
Narxi 100 iteratsiyadan so‘ng: 0.6558634554205135
O‘qitishning aniqligi: 65,55%.
Testning aniqligi: 80,00%.
Yuqorida keltirilgan natijalar shuni ko'rsatadiki, biz 78% dan 80% gacha bo'lgan
sinov aniqligini oshirib, umumlashma xatosini yaxshiladik. Boshqa tomondan,
ta'limning aniqligi 82,30% dan 65,55% gacha kamaydi.
4. Logistik regressiya va uni tartibga solish
Logistik regressiya - bu taxminiy o'zgaruvchilar asosida ikkilik javob
o'zgaruvchisini modellashtirish uchun ishlatiladigan statistik usul. Dastlab ikki
sinfli yoki ikkilik javob muammolari uchun ishlab chiqilgan bo'lsa-da, bu usulni
ko'p sinfli masalalar uchun umumlashtirish mumkin. Shunga qaramay, bizning
misolimizdagi o'sma namunalari ma'lumotlari ikkitomonlama javob yoki ikki sinfli
muammodir.
Logistik regressiya kontseptsiya sifatida chiziqli regressiyaga juda o'xshaydi va
biz uni qiziqishning statistik taqsimotidan namuna olinadigan kuzatiladigan
ma'lumotlarning ehtimolligini maksimal darajaga ko'taradigan statistik
parametrlarni topishga harakat qiladigan "maksimal ehtimollarni baholash"
muammosi deb hisoblashimiz mumkin. Bu, shuningdek, biz boshqariladigan
mashinalarni o'rganish algoritmlarida ko'riladigan umumiy xarajatlar / zararlar
funktsiyasi yondashuvi bilan juda bog'liq. Ikkilik javob o'zgaruvchilari bo'lsa,
oddiy chiziqli regressiya modeli, masalan y men
∼β0+β1x , bu noto'g'ri tanlov
bo'ladi, chunki u osongina tashqarida qadriyatlarni yaratishi mumkin 0 dan 1
chegara. Bizga kerak bo'lgan narsa - bashoratning pastki chegarasini nolga, yuqori
chegarasini cheklaydigan model 1. Ushbu talabga birinchi navbatda muammoni
boshqacha shakllantirish kerak. Agar y men faqat bo'lishi mumkin 0 yoki 1 , biz
shakllantirishimiz mumkin y men ehtimolliklar bilan bitta va nol qiymatlarni qabul
qila oladigan tasodifiy o'zgaruvchini amalga oshirish sifatida p men va 1- p navbati
bilan. Ushbu tasodifiy o'zgaruvchi Bernulli taqsimotiga amal qiladi va ikkilik
o'zgaruvchini bashorat qilish o'rniga biz muammoni quyidagicha shakllantirishimiz
mumkin p men
∼0+β1x . Biroq, bizning boshlang'ich muammomiz hanuzgacha
davom etmoqda, oddiy chiziqli regressiya hali ham yuqori qiymatlarga olib keladi
0 va 1 chegaralar. Chegaraviy talabni qondiradigan model quyida keltirilgan
logistik tenglama hisoblanadi.
p men = e(β0+β1x ) va 1+e(β0+β1x)
Ushbu tenglamani quyidagi transformatsiya bilan chiziqlash mumkin
Logit (p ) = ln (p1-p) = β0+β1x
Chap tomon logit deb ataladi, ya'ni "logistika birligi" degan ma'noni anglatadi.
Bundan tashqari, log stavkalari deb ham ataladi. Bunday holda, bizning modelimiz
log miqyosida qiymatlarni hosil qiladi va yuqoridagi logistik tenglama bilan biz
qiymatlarni 0 va 1 oralig'ida olamiz. Endi savol qoladi: "Bizning o'quv to'plamimiz
uchun eng yaxshi parametrlarning taxminlari qanday". Biz maksimal ehtimollik
doirasi bo'yicha eng yaxshi parametrlarni baholash statistik modelning haqiqatan
ham kuzatilgan ma'lumotlarni ishlab chiqarish ehtimolini maksimal darajaga
ko'tarishdir. Siz ushbu moslamani kuzatilgan ma'lumotlar to'plamiga ehtimollik
taqsimoti deb o'ylashingiz mumkin. Ehtimollarni taqsimlash parametrlari
kuzatilayotgan ma'lumotlarning ushbu taqsimotdan kelib chiqish ehtimolini
maksimal darajada oshirishi kerak. Agar biz Gauss taqsimotidan foydalangan
bo'lsak, kuzatilgan ma'lumotlar ushbu Gauss taqsimotidan olinishi yanada aniqroq
bo'lguncha o'rtacha va dispersiya parametrlarini o'zgartirgan bo'lar edik. Logistik
regressiyada javob o'zgaruvchisi binomial taqsimot yoki uning maxsus holati
Bernulli taqsimoti bilan modellashtirilgan. Har bir javob o'zgaruvchining qiymati,
y , 0 yoki 1 ga teng va biz parametrni aniqlashimiz kerak p 0 va 1 sonlarning
bunday taqsimlanishini yaratishi mumkin bo'lgan qiymatlar. Agar biz eng
yaxshisini topa olsak p men har bir o'sma namunasi uchun qiymatlar men , biz
kuzatilgan ma'lumotlarga qaraganda modelning jurnalga kirish ehtimolligini
maksimal darajaga ko'targan bo'lardik. Ikkilik javob o'zgaruvchisi uchun maksimal
jurnalga o'xshashlik funktsiyasi tenglama sifatida ko'rsatilgan
ln(L)=N∑=1[ln(1-p)+y ln(p1-p)]
Ushbu tenglamani maksimal darajaga ko'tarish uchun biz tegmaslikni topishimiz
kerak p parametrlarga bog'liq bo'lgan qiymatlar β0 va β1 shuningdek, taxminiy
o'zgaruvchilar qiymatlariga bog'liq x .
Tenglamani almashtirishni qayta tuzishimiz mumkin p logistik tenglama bilan.
Bundan tashqari, ko'plab optimallash funktsiyalari maksimal darajaga emas, balki
minimallashtirishga imkon beradi. Shuning uchun biz salbiy jurnal ehtimolidan
foydalanamiz, bu "log yo'qotish" yoki "logistik yo'qotish" funktsiyasi deb ham
ataladi. Quyidagi funktsiya "jurnalni yo'qotish" funktsiyasidir. Biz almashtirdir p
logistik tenglama bilan va ifodani soddalashtirdi. Keling, bu amalda qanday
ishlashini ko'rib chiqaylik. Birinchidan, yuqoridagi misolda bo'lgani kabi, biz
o'simta namunalarini "CIMP" va "no CIMP" subtiplariga tasniflash uchun bitta
genning ekspressioni, bitta taxminiy o'zgaruvchidan foydalanamiz. Biz tasodifiy
o'rmon modelidagi eng muhim o'zgaruvchilardan biri bo'lgan PDPN gen
ekspressionidan foydalanamiz. Biz karetada formulalar interfeysidan
foydalanamiz, bu erda javoblarning nomlarini va formulada taxminiy
o'zgaruvchilarni taqdim etamiz. Bunday holda, biz stats to'plamidan yadroli R
funktsiyasidan foydalanamiz, glm(). "Glm" umumlashtirilgan chiziqli modellarni
anglatadi va u R ning har xil turdagi regressiyalari uchun asosiy interfeys
hisoblanadi.
# mos logistik regressiya modeli
# usul a
O'ziga mos kelmaslik uchun tartibni tartibga solish
Agar biz modelning egiluvchanligini cheklay olsak, bu ko'rinmaydigan, yangi
ma'lumotlar to'plamidagi ishlashga yordam beradi.
O’qitiluvchi va testlanivchi ma’lumotlar to’plami
Ma’lumotlar to’plami (Data set). Ma’lumotlar to’plami - bu o’qitish uchun kerakli
bo’lgan ma'lumotlar to'plamidir. Boshqacha aytganda, ma'lumotlar to'plami
ma'lumotlar bazasi jadvalining yoki bitta statistik ma'lumotlar
matritsasining qiymatlari hisoblanib, bunda jadvalning har bir ustuni ma'lum
o'zgaruvchini yoki parametr (x1, x2, ... , xn) qiymatini ifodalasa, har bir satr esa
berilgan parametrlar asosidagi obyekt qiymatiga (X1, X2, ..., X N) to'g'ri keladi.
Machinali o’qitish loyihalarida biz o'quv ma'lumotlari to'plamidan (training
dataset) foydalanamiz. Bu turli xil harakatlarni bajarish uchun modelni o\qitish
uchun ishlatiladigan haqiqiy ma'lumotlar to'plami hisoblanadi.
Ma’lumot to’plamlari (data set) turlari. Mashinan io’qitish jarayonida va
modelning to’liq ishlashini ta’minlash maqsadida quyidagi ma’lumotlar to’plami
turlaridan foydalaniladi:
o'quv tanlanmasi - to'plami (training set);
qvalifikatsiya tanlanmasi - to’plami (qvalidation set);
test tanlanma - to'plami (qtesting set).
O’qitiluvchi va testlanuvchi ma’lumotlar to’plami. Ma'lumotlarni yig'ish - bu
neyron tarmoqlar kabi tushunchalarni qanday qo'llashni o'rganish, natijalarni
o'rganish uchun algoritmni tayyorlash uchun ishlatiladigan to'plamdir. Bunga
ma'lumotlar va kutiladigan natijalar kiradi. O’quv tanlanma umumiy
ma'lumotlarning ko'p qismini tashkil etadi, ya’ni taxminan 60-80%. Sinov
tanlanma modellarning parametrlariga mos keladigan og'irliklarni sozlash deb
nomlanadigan jarayon hisoblanadi.
Sinov ma'lumotlari to'plami algoritmning o'quv ma'lumotlari bilan qanchalik
yaxshi o'qitilganligini baholash uchun ishlatiladi.
AI-loyihalar(AIprojects)da biz sinov bosqichida o'quv ma'lumotlari to'plamidan
foydalana olmaymiz, chunki algoritm oldindan kutilgan natijani oldindan bilib
oladi, bu bizning maqsadimiz emas.
Sinov to'plamlari ma'lumotlarning 20% ni tashkil etadi, testlar to'plami ma'lumotlar
kiritilishi bilan tasdiqlangan to'g'ri natijalar bilan birgalikda guruhlangan
ma'lumotlarni kiritish, odatda inson tomonidan tekshirilishi bilan ta'minlanadi.
Ma’lumotlarga dastlabki ishlov berish. Shaklni aniqlash: ma'lumotlar turli xil
fayllarda tarqalishi mumkin. Masalan, turli xil valyutalar, tillar va hokazolarga ega
bo'lgan turli mamlakatlardagi savdo natijalari ma'lumotlar to'plamini shakllantirish
uchun bir joyga to'planadi.
Ma'lumotlarni tozalash: Ushbu bosqichda bizning maqsadimiz etishmayotgan
qiymatlar bilan ishlash va keraksiz belgilarni ma'lumotlardan olib tashlashdan
iborat.
Xususiyatlarni tanlash: Ushbu bosqichda biz funksiyalar sonini tahlil qilish va
optimallashtirishga e'tibor qaratamiz. Odatda, jamoaning a'zosi bashorat qilish
uchun qaysi xususiyatlar muhimligini aniqlab, tezroq hisoblash va kam xotira sarf
qilish uchun ularni tanlashi kerak.
Ma'lumotlarni tozalash
Malumotlarni vizualizatsiyalsh
Operatsiyalar
Modelni
joylashtirish
Modelni tasdiqlash
O’qitish
modeli
Mashinali o’qitish
Ma'lumotlarni
tayyorlash
Ma'lumotlar
muhandisligi
Ma'lumotlar
tekshirish
Dastlabki ma’lumotlar
Ma’lumotlarga dastlabki ishlov berish 10.1-rasmda keltirilgan.
10.1-rasm. Ma’lumotlarga dastlabki ishlov berish sxemasi.
2.
Data Set
,
Data Table
, Data Row va Data
Column haqida tushunchalar
DataSet - ma'lumotlar manbalaridan qat'i nazar, izchil dasturlash modelini
ta'minlaydigan oddiy, doimiy ma'lumotlar bazasi. DataSet
- bu tegishli jadvallar
,
cheklovlar va jadvallar o'rtasidagi munosabatlarni o'z ichiga olgan to'liq
ma'lumotlar to'plami.
Odatda ma'lumotlar to'plami (DataSet) RelationsCollection obyekti tomonidan
aniqlangan munosabatlarni o'z ichiga oladi. DataRelation obyekti xaritasi bir
jadvaldagi qatorlar bilan boshqa ma'lumotlar jadvalidagi satrlar bilan ifodalangan
munosabatlar. Bu relyatsion ma'lumotlar bazasidagi tashqi kalitlarga o'xshash
ishlaydi.
DataRelation ikkita DataSets-dagi ustunlarning mosligini aniqlaydi. Aloqalar
DataSet ichida bir jadvaldan boshqasiga o'tishga imkon beradi. DataRelation-ning
asosiy elementlari quyidagilardir:
munosabatlarning nomi
, ikkita jadvalning o'zlari
bilan bog'lanishi, shuningdek jadvallarda birlamchi kalit va chet el kalitlari
ustunlari. Aloqalar
jadvaldagi bir nechta ustunlar
, birlamchi va chet el kalitlari
uchun DataColumn moslamalari qatori asosida o'rnatilishi mumkin.
DataRelation
yaratilganda
, ADO.NET munosabatlar o'rnatilishi mumkinligini tekshiradi.
ADO.NET munosabatlarga salbiy ta'sir ko'rsatishi mumkin bo'lgan keyingi
o'zgarishlardan qochib, faqat bir marta RelationsCollectionga aloqalarni qo'shadi.
DataTable System. Data tomonidan belgilanadi va jadvalning sxemasi va satrlarini
belgilaydigan ColumnsCollection obyekti tomonidan taqdim etilgan ustunlar
to'plamini o'z ichiga olgan xotirada doimiy joylashgan ma'lumotlar jadvalini aks
ettiradi. DataTable jadvalga ma'lumotlarni olib keladigan RowsCollection obyekti
tomonidan namoyish etilgan qatorlar to'plamini o'z ichiga oladi. Joriy holat bilan
bir qatorda DataTable obyekti asl holatini saqlab qoladi va ma'lumotlar bilan sodir
bo'lgan barcha o'zgarishlarni kuzatib boradi. DataSet XML orqali tarkibni aks
ettiruvchi ma'lumotlarni saqlashi va qayta yuklashi mumkin.
3. Ma'lumotlarni
tahlil qilish Data Setlar
Ma'lumotlarni tahlil qilish va mashinada o’qitish juda ko'p ma'lumotlarni talab
qiladi. Siz ularni o'zingiz
birlashtira olasiz
, ammo bu zerikarli. Bu erda turli
toifadagi tayyor ma'lumotlar to'plamlari bizning yordamimizga keladi va Datasetlar
yordamida quyidagi ma’lumotlar tahlil qiliniishi mumkun:
• Davlat ma'lumotlar to'plamlari;
• Uy-joy ma'lumotlari;
•
Iqtisodiyot va moliya
;
• Kompyuterni ko'rish
qobiliyati
;
• Tuyg'ularni
tahlil qilish
;
•
Tabiiy tilni qayta ishlash
;
• Avtopilotlar;
• Tibbiy ma'lumotlar va h.k.
Data set qidirish tizimlari. Bunday qidiruv tizimlari quyidagilardan iborat.
Google Dataset Search. Dataset Search kalit so'z bilan butun Internetda
ma'lumotlar to'plamlarini qidirishga imkon beradi.
Kaggle. Ko'plab qiziqarli ma'lumotlar to'plamiga ega bo'lgan mashinasozlik
musobaqalari maydonchasi. Ma'lumotlar to'plami ro'yxatida ramen reytingidan
tortib NCAA basketbol ma'lumotlariga va Sietlning uy hayvonlari litsenziyasining
ma'lumotlar bazasiga qadar turli xil namunalar mavjud.
UCI Machine Learning Repository. Internetdagi ma'lumotlar to'plamlarining eng
qadimgi manbalaridan biri va qiziqarli ma'lumotlar to'plamini izlash uchun birinchi
o'rinda turadi. Garchi ular foydalanuvchilar tomonidan qo'shilsa va shuning uchun
har xil darajadagi "poklik" ga ega bo'lsa ham, aksariyati tozalanadi. Ma'lumotlarni
ro'yxatdan o'tmasdan darhol yuklab olish mumkin.
Visual Data. Datasetlar kompyuterni ko'rish uchun, toifalarga ajratilgan va qidiruv
mavjud.
Find Datasets | CMU Libraries. Karnegi Mellon universiteti tomonidan taqdim
etilgan Datasetlar to'plami.
Davlat Datasetlari. Data.gov. Bu erda siz turli davlat idoralari ma'lumotlarini
topishingiz mumkin. Bular davlat byudjetidan tortib barcha iforalar ma'lumotlarini
yiginfisy mavjud.
Turar joy ma'lumotlari. Boston Housing Dataset. Shet davlati Qo'shma
Shtatlarning aholini ro'yxatga olish byurosi tomonidan tuzilgan Bostondagi uy-joy
haqida ma'lumot mavjud. U StatLib arxividan olingan va algoritmlarni baholashda
adabiyotda keng qo'llanilgan.
Iqtisodiyot va moliyadagi Data setlar. Bularga quyidagilar kiradi:
Quandl. Iqtisodiy va moliyaviy ma'lumotlarning yaxshi manbai - Iqtisodiy
ko'rsatkichlarni yoki aksiyalar narxlarini bashorat qilish modellarini tuzishda
foydalidir.
Dostları ilə paylaş: |