Gradiyent tushishi. Stoxastik gradiyent tushishiga o’tishdan oldin, asosiy gradiyent tushishini ko’rib chiqamiz.
Gradiyent tushishdan maqsad nima? Oddiy qilib aytganda, gradiyent sirtning qiyaligini bildiradi. Shunday qilib, gradiyent tushish so’zma-so’z ma’noda ushbu sirtning eng past nuqtasiga tushish uchun pastga tushishni anglatadi. Ikki o’lchovli grafikada parabolani misol qilib olamiz,
bu yerda $ w_ {j, i} $ og’irliklarni ifodalaydi, ular ham biz neyron tarmoqlarni optimallashtirishni xohlaganimizda o’zgartirishga harakat qilamiz. $ L $ - bu yuqotish funksiyasi va biz uni minimallashtirishga harakat qilmoqdamiz. $ \ delta w_ {j, i} $ yuqotishlarni kamaytirish uchun ushbu vaznni qanday o’zgartirishni hal qiladi.
Shubhasiz, har bir qadamda butun mashg’ulotlar to’plamidan foydalaniladi va shuning uchun ham uni gradiyent nasli deyiladi. Ushbu hisoblash juda katta ma’lumotlar to’plami uchun qimmatga tushadi va har bir takrorlashda oraliq og’irliklarni xotirada saqlashi kerak bo’ladi. Gradiyent tushishning grafik talqini quyidagicha ko’rinadi:
Vikipediyadan bir qator darajadagi siljish bo’yicha gradiyent tushish tasviri.
Gradiyent tushish mahalliy minimalarni topish uchun qanday ishlashini yaxshiroq ko’rsatish uchun $ f (x) = x³ - 2x² + 2 $ funksiyasi uchun mahalliy minimalarni topishga misol keltiramiz. Kod quyida ko’rsatilgan,
Yuqoridagi jadvaldan biz mahalliy pastliklar 1,4 atrofida bo’lishini ko’rishimiz mumkin, ammo biz bu haqda bilmaymiz va $ x_0 = 2 $ da boshlang’ich nuqtani tanlaymiz.
Mahalliy minimumga erishish uchun o’tadigan barcha nuqtalarni to’plab, gradiyent tushishining trayektoriyasini tuzishimiz mumkin,