6-ma’ruza. Ko’p o’zgaruvchili chiziqli regressiya Reja



Yüklə 1,73 Mb.
səhifə6/12
tarix22.03.2023
ölçüsü1,73 Mb.
#89098
1   2   3   4   5   6   7   8   9   ...   12
6-mavzu(Саид-2-вар-лот)

Nesterov Impulse -gradiyentni tezlashtirdi. Nesterov Impulse - so’nggi paytlarda ommalashib borayotgan Impulse yangilanishining biroz boshqacha versiyasidir. Ushbu versiyada, avvalo, joriy impuls ko’rsatilgan nuqtani ko’rib chiqamiz va shu nuqtadan gradiyenlarni hisoblaymiz. Rasmga qarasak, bu ya’nada aniqroq bo’ladi. Nesterov impulsini quyidagi formulalar bilan aniqlash mumkin:



Manba ( Stenford Class CS231n )



Nima uchun impuls ishlaydi. Ushbu bo’limda, nima uchun momentum aksariyat hollarda klassik SGD dan yaxshiroq bo’lishi haqida bir oz gaplashmoqchiman.
Stoxastik gradiyent tushish bilan biz yuqotish funksiyasining aniq hosilasini hisoblamaymiz. Buning o’rniga biz uni kichik qismlarda baholaymiz. Bu shuni anglatadiki, biz har doim ham optimal yo’nalishda bo’lganligimiz uchun hosila "shovqinli" va yuqoridagi grafikalar bilan bir xil. Shunday qilib, eksponentsial ravishda tortilgan o’rtacha ko’rsatkichlar bizga shovqinli hisob-kitoblarga qaraganda haqiqiy hosilaga yaqinroq bo’lgan yaxshiroq bahoni berishi mumkin. Bu impulsning klassik SGD ga qaraganda yaxshiroq ishlashi mumkinligining sabablaridan biri.
Misol sifatida jarliklarga kiradigan darchani qaraylik. Darcha - bu sirt bir o’lchamli boshqasiga qaraganda ancha keskin egilgan maydon. SGD tor jarlik bo’ylab tebranishga moyil bo’ladi, chunki salbiy gradiyent jarlik bo’ylab tegmaslik tomoniga emas, balki uni pastga ya’ni tik tomonlardan biriga yunaltiradi. Momentum gradiyentlarni to’g’ri yo’nalishda ketishini tezlashtirishga yordam beradi. Bu quyidagi rasmlarda ifodalangan:


Chap - impulsiz SGD, o’ng - impulsli SGD.
Gradiyent tushish - bu differensialanadigan funksiyaning mahalliy minimumini topish uchun foydalanadigan eng muhim usul. Ammo ulkan ma’lumotlar to’plami bilan ishlashda har doim muammolar paydo bo’ladi, chunki gradiyent tushish o’quv to’plamidagi barcha ma’lumotlar namunalarini oladi va yuqotish funksiyasini minimallashtirish uchun bitta parametrni yangilashni takroriy ravishda amalga oshiradi. Bu unchalik samarasiz, chunki parametrlarni yangilash butun ma’lumotlar bazasini qayta ishlashni talab qiladi. Bu yerda stoxastik gradiyent tushish g’oyasi paydo bo’ladiu boshqacha yo’l tutadi. Bu yerda biz stoxastik gradiyent tushish qanday ishlaydi va oddiy gradiyent tushish bilan stoxastik gradiyent tushish algoritmi o’rtasida qanday farq borligi haqida gaplashamiz.

Yüklə 1,73 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9   ...   12




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin