Mashq qilishda foydalaniladigan matematik usullar Neyron tarmoqni o'rgatish uchun qaysi usul qo'llaniladi? Keling, gradient tushish deb ataladigan oddiy va ishonchli usuldan boshlaylik va keyin stokastik gradient usulini ko'rib chiqamiz.
Neyron tarmog'ini o'rgatish jarayoni ancha vaqt talab etadi. Ushbu jarayonni samaraliroq qilish uchun ba'zi matematik usullar zarur qadamlar sonini minimallashtiradi.
Gradient tushishi Gradient tushishi funksiyaning minimalini topish uchun birinchi darajali iterativ optimallashtirish algoritmidir. Gradient tushishi yordamida funktsiyaning mahalliy minimumini topish uchun joriy nuqtadagi funktsiya gradientining (yoki taxminiy gradientining) manfiyiga proportsional qadamlar qo'yiladi. Buning o'rniga, gradientning ijobiy qismiga mutanosib qadamlar qo'yilsa, u funktsiyaning mahalliy maksimaliga yaqinlashadi va protsedura keyinchalik gradient ko'tarilishi deb nomlanadi.
2-rasm. Gradient tushishi. Traektoriya yo'qotish funktsiyasining minimal darajasiga o'tadi
Stokastik gradient tushishi Neyron tarmoqlarni o'qitishning standart usuli stokastik gradient descent (SGD) usuli hisoblanadi. Gradient tushish muammosi shundaki, vazn vektorining yangi yaqinlashuvini aniqlash uchun har bir namuna elementidan gradientni hisoblash kerak, bu algoritmni ancha sekinlashtirishi mumkin. Stokastik gradient tushish algoritmini tezlashtirish g'oyasi og'irliklarning yangi yaqinlashuvini hisoblash uchun faqat bitta element yoki ba'zi bir kichik namunadan foydalanishdir.
Neyron tarmoqlar ko'pincha stokastik tarzda o'qitiladi; ya'ni ma'lumotlarning turli qismlari har xil iteratsiyalarda qo'llaniladi. Bu kamida ikkita sababga ko'ra. Birinchidan, o'qitish uchun ishlatiladigan ma'lumotlar to'plamlari ko'pincha ularni to'liq RAMda saqlash va/yoki hisob-kitoblarni samarali bajarish uchun juda katta. Ikkinchidan, optimallashtirilgan funksiya odatda konveks emas, shuning uchun har bir iteratsiyada ma'lumotlarning turli qismlaridan foydalanish modelni mahalliy minimal darajada ushlab turishga yordam beradi.
3-rasm. Stokastik gradient tushishi (ko'k). Traektoriya to'g'ri emas, lekin ma'lumotlarning bir qismida neyron tarmoqlarni o'rgatish imkonini beradi.
Bundan tashqari, neyron tarmoqlarni o'qitish odatda birinchi darajali gradient usullari bilan amalga oshiriladi, chunki neyron tarmoqdagi parametrlarning ko'pligi tufayli yuqori tartibli usullarni samarali qo'llash mumkin emas.
Biroq, agar o'rganish bosqichi etarlicha aniq sozlanmagan bo'lsa, u juda sekin ajralib chiqishi yoki birlashishi mumkin. Shu sababli, o'rganishning konvergentsiyasini tezlashtirish va foydalanuvchini giperparametrlarni ehtiyotkorlik bilan sozlash zaruratidan qutqarish uchun ko'plab muqobil usullar mavjud. Ushbu usullar ko'pincha gradientlarni samaraliroq hisoblab chiqadi va iteratsiya bosqichini mos ravishda o'zgartiradi.