qattiq
Steuern Senken"
3.
Natija: ingliz tilida bitta jumla
chiqish = "Men soliqlarni kamaytirmoqchiman
katta
"(
katta liga
?)
2. Ketma-ket o‘rganish nima?
1. RNN nima uchun kerakligini tushunishni osonlashtirish uchun, keling, o'ylab ko'raylik
oddiy nutq ishi haqida (keling, nevrologiyani biroz buzaylik)
1.
Bizga yashirin holat (erkin fikr?) berilgan, bu biz gapirmoqchi bo'lgan
jumladagi barcha ma'lumotlarni kodlaydi.
2.
Biz so'zlar (jumla) ro'yxatini birma-bir tuzmoqchimiz.
1.
Har bir bosqichda biz faqat bitta so'zni tanlashimiz mumkin.
2.
Yashirin holatga tanlangan so'zlar ta'sir qiladi (shunday qilib, biz aytgan so'zimizni
eslab, gapni yakunlashimiz mumkin).
2. Ketma-ket o‘rganish nima?
1. Oddiy CNNlar uzunligi o'zgaruvchan kirish va chiqishda yaxshi
tug'ilmaydi.
1.
Kirish va chiqishni aniqlash qiyin
1.
Shuni yodda tuting
1.
Kirish tasviri 3D tenzor (kenglik, uzunlik, rangli kanallar)
2.
Chiqish - bu belgilangan sinflar soni bo'yicha taqsimot.
2.
Ketma-ket bo'lishi mumkin:
1.
"Bilaman, men bilaman, men bilaman, sen men bilmayman, deb
bilaman"
2.
"Bilmadim"
2.
Kirish va chiqish ketma-ketlikda kuchli o'zaro bog'liqdir.
3.
Shunga qaramay, odamlar ketma-ket o'rganishda CNN dan foydalanish yo'llarini o'ylab topdilar
(masalan, [8]).
3. Ketma-ket yorliqlash bilan
shug'ullanish usullari
1. Avtoregressiv modellar
1.
Kechiktirish tugmalari yordamida oldingi atamalarning belgilangan sonidan
keyingi atamani ketma-ket bashorat qiling.
2. Oldinga uzatuvchi neyron tarmoqlari
1.
Ular chiziqli bo'lmagan yashirin birliklarning bir yoki bir nechta qatlamlaridan foydalangan holda
avtoregressiv modellarni umumlashtiradi
Xotirasiz modellar: cheklangan so'z xotirasi oynasi; yashirin holatdan samarali
foydalanish mumkin emas.
materiallar [2]
3. Ketma-ket yorliqlash bilan
shug'ullanish usullari
1. Chiziqli dinamik tizimlar
1.
Bu generativ modellar. Ular to'g'ridan-to'g'ri kuzatilishi mumkin bo'lmagan
haqiqiy qimmatli yashirin holatga ega.
2. Yashirin Markov modellari
1.
Diskret bir N-ning yashirin holatiga ega bo'ling. Davlatlar orasidagi o'tishlar stokastik
bo'lib, o'tish matritsasi tomonidan boshqariladi. Davlat tomonidan ishlab chiqarilgan
mahsulotlar stokastikdir.
Xotirali modellar,
yashirin holat taqsimotini aniqlash uchun vaqt-xarajat.
materiallar [2]
3. Ketma-ket yorliqlash bilan
shug'ullanish usullari
1. Nihoyat, RNN modeli!
1.
Yashirin holatni deterministik chiziqli bo'lmagan tarzda yangilang.
2.
Oddiy so'zlashda biz tanlangan so'zni kirish sifatida tarmoqqa
qaytarib yuboramiz.
materiallar [4]
3. Ketma-ket yorliqlash bilan
shug'ullanish usullari
1. RNN juda kuchli, chunki ular:
1.
O'tmish haqidagi ko'plab ma'lumotlarni samarali saqlashga imkon
beruvchi taqsimlangan yashirin holat.
2.
Ularning yashirin holatini murakkab usullar bilan yangilash imkonini beruvchi
chiziqli bo'lmagan dinamika.
3.
Yashirin holatni xulosa qilishning hojati yo'q, sof deterministik.
4.
Og'irlikni taqsimlash
Ikkinchi qism
Vanilla takrorlanuvchi neyron tarmog'idagi matematika
1. Vanilla Forward Pass
2. Vanilla Orqaga o'tish
3. Vanilla ikki tomonlama dovon
4. Vanilla RNNni o'rgatish
5. Yo'qolib borayotgan va portlovchi gradient muammolari
1.Vanilla Forward Pass
1. Vanilla RNN ning oldinga o'tishi
1.
Bitta yashirin qatlamli MLP bilan bir xil
2.
Bundan tashqari, faollashtirishlar yashirin qatlamga joriy tashqi kirish
orqali ham, yashirin qatlam faollashuvidan ham bir qadam orqaga
vaqt ichida keladi.
2. Yashirin birliklarga kirish uchun bizda mavjud
3. Chiqish birligi uchun bizda mavjud
materiallar [4]
1.Vanilla Forward Pass
1. Yashirin faollashtirishning to'liq ketma-ketligini t = 1 dan boshlab
va uchta tenglamani rekursiv qo'llash orqali, har bir qadamda t ni
oshirish orqali hisoblash mumkin.
2.Vanilla orqaga o'tish
1. Maqsad funksiyasining tarmoq natijalariga nisbatan qisman
hosilalarini hisobga olsak, endi og‘irliklarga nisbatan hosilalari
kerak bo‘ladi.
2. Biz BPTT ga e'tibor qaratamiz, chunki u kontseptual jihatdan
sodda va hisoblash vaqtida samaraliroq (xotirada bo'lmasa
ham). Standart orqaga tarqalish kabi, BPTT zanjir qoidasini
takroriy qo'llashdan iborat.
2.Vanilla orqaga o'tish
1. Vaqt o'tishi bilan orqaga tarqalish
1.
Chiroyli nomga aldanmang. Bu shunchaki standart orqaga
tarqalish.
materiallar [6]
2.Vanilla orqaga o'tish
1. Vaqt o'tishi bilan orqaga tarqalish
1.
Delta atamalarining to'liq ketma-ketligini t = T dan boshlab va quyidagi
funktsiyalarni rekursiv qo'llash orqali, har bir qadamda t ni kamaytirish
orqali hisoblash mumkin.
2.
Shu esta tutilsinki
, chunki tashqaridan hech qanday xato olinmaydi
ketma-ketlikning oxiri.
3.
Nihoyat, yashirin qatlamdagi har bir birlikka va undan keladigan
og'irliklar har bir vaqt bosqichida bir xil ekanligini hisobga olib, biz
tarmoq og'irliklarining har biriga nisbatan hosilalarni olish uchun
butun ketma-ketlikni yig'amiz.
materiallar [4]
3.Vanilli ikki tomonlama dovon
1. Ko'p ketma-ketlik yorliqlash vazifalari uchun biz kelajakka
kirishni xohlaymiz.
3.Vanilli ikki tomonlama dovon
1. Algoritm shunday ko'rinadi
4.Vanilla RNNni o'rgatish
1. Hozirgacha biz RNN ni mos maqsadli funksiyalar bo'yicha qanday
ajratish mumkinligini muhokama qildik va shu bilan ularni har
qanday gradientga asoslangan algoritm bilan o'rgatish mumkin
edi.
1.
ularni oddiy CNN sifatida qabul qiling
2. RNN haqida ajoyib narsalardan biri: ko'plab muhandislik
tanlovlari
1.
Oldindan ishlov berish va keyingi ishlov berish
5.Vanishing va portlovchi
gradient muammolari
1. Backprop paytida har bir bosqichda bir xil matritsani
ko'paytiring
materiallar [3]
5.Vanishing va portlovchi
gradient muammolari
1. O'yinchoq misoli, gradient qanday yo'qoladi
1.
Shunga o'xshash, ammo oddiyroq RNN formulasi:
2. Yechimlar?
1.
Yo'qolgan gradientlar uchun: Initialization + ReLus
2.
Gradientni portlatish uchun hiyla: qirqish hiylasi
Uchinchi qism
Vanildan LSTMgacha
1. Ta'rif
2. Oldinga o'tish
3. Orqaga o'tish
1. Ta'rif
1. Yuqorida aytib o'tilganidek, standart RNN arxitekturalari uchun kirish
mumkin bo'lgan kontekst doirasi cheklangan.
1.
Muammo shundaki, berilgan kirishning yashirin qatlamga va shuning
uchun tarmoq chiqishiga ta'siri tarmoqning takroriy ulanishlari atrofida
aylanayotganda pasayadi yoki eksponent ravishda portlaydi.
2. Hozirgacha eng samarali yechim Long Short Term Memory (LSTM)
arxitekturasidir (Hochreiter va Schmidhuber, 1997).
3. LSTM arxitekturasi xotira bloklari deb nomlanuvchi takroriy bog‘langan quyi
tarmoqlar to‘plamidan iborat. Ushbu bloklarni raqamli kompyuterdagi xotira
chiplarining farqlanadigan versiyasi deb hisoblash mumkin. Har bir blokda bir
yoki bir nechta o'z-o'zidan ulangan xotira katakchalari va hujayralar uchun
yozish, o'qish va tiklash operatsiyalarining uzluksiz analoglarini ta'minlaydigan
uchta ko'paytiruvchi birlik mavjud.
1.
Kirish, chiqish va unutish eshiklari.
materiallar [4]
1. Ta'rif
1. Multiplikativ eshiklar LSTM xotira hujayralarini
saqlash va kirish imkonini beradi
ma'lumotni uzoq vaqt davomida o'z ichiga oladi va
shu bilan yo'qolgan gradient muammosidan
qochadi
1.
Masalan, agar kirish eshigi yopiq bo'lsa
(ya'ni, faollashuv 0 ga yaqin bo'lsa),
hujayraning faollashuvi tarmoqqa kelgan
yangi kirishlar tomonidan yozilmaydi va
shuning uchun tarmoqdan ancha
keyinroq foydalanish mumkin bo'ladi.
ketma-ketlikda, chiqish eshigini ochish
orqali.
1. Ta'rif
1. Taqqoslash
2. Oldinga o'tish
1. Asosan vanil RNN oldinga
o'tish juda o'xshash
1.
Ammo bu ancha
murakkabroq
2.
Orqaga o'tishni o'zingiz
bajara olasizmi?
Dostları ilə paylaş: |