7-mavzu. Neyroiqtisodiyotda o’rganish nazariyasi va tajribalar

O‘QUVNI MUSTAHKAMLASH NAZARIYASI

Yüklə 10,89 Kb.

səhifə	2/4
tarix	26.12.2023
ölçüsü	10,89 Kb.
	#197895

1 2 3 4

7 mavzu NEYROIQTISODIYOTDA O’RGANISH NAZARIYASI VA TAJRIBALAR

Bu yerda kelajakdagi mukofot chegirma faktori δ (0
Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi deb ataladi va quyidagicha hisoblanadi.

Chiniqtirish va o`rganish nazariyasi

O‘QUVNI MUSTAHKAMLASH NAZARIYASI

Siz tashrif buyurgan restoranni qanday baholaysiz?

Restoranga birinchi bor tashrif buyurganimizda, biz ularning taomlarining ta’mi bilan tajribaga ega emasmiz (ya’ni, biz oldindan aytib bo‘lmaydi) va biz taomning qanchalik yaxshi ekanligini baholaymiz. Boshqa tomondan, biz tez-tez tashrif buyuradigan restoranlarda “bu odatdagidek yaxshi emas” kabi prognozlarimizdan farqni baholashimiz mumkin. Agar shunday salbiy taxmin qilish xatosi davom etsa, biz restoranning bahosini pasaytiramiz va restoranga boshqa tashrif buyurmaymiz.

Ushbu baholash jarayonini mustahkamlash ta’lim nazariyasi bilan izohlash mumkin. Ushbu nazariyada ikkita tushuncha mavjud:

atrof-muhit;
agent.

Masalan, karta o‘yinida o‘yin qoidalari va raqib atrof-muhitdir va siz o‘zingiz agentsiz. T vaqt muhitidagi agent keyin muhit a(t) mukofotga s(t) holatiga qarab harakat qiladi va keyingi holatga r(t) holatiga o‘tishni beradi. Ushbu muhitda agent (inson yoki robot) vaqt o‘tishi bilan kutilgan mukofot summasini maksimal darajada oshiradigan xatti-harakatlarni o‘rganadi s(t+1). Mukofotlarning kutilayotgan summasi kutilgan mukofot yoki qiymat funksiyasi deb ataladi. s(t) holati bilan t vaqtda kutilayotgan mukofot quyidagicha aniqlanadi.
V (s(t)) = E[r(t) + dr(t + 1) + d 2 r(t + 2) + ...] (1)

(Hozirgi qiymat) = (Taqdim etilgan mukofot) + d ´(bir davrda mukofot) + d 2 ´(ikki davrda mukofot) +...

Bu yerda kelajakdagi mukofot chegirma faktori δ (0<δ<1) bilan chegiriladi.

Ya’ni, kelajakda qancha mukofot kutilsa, mukofotning qiymati shunchalik kam bo‘ladi. Bu vaqtni afzal ko‘rish tushunchasidir.

Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi deb ataladi va quyidagicha hisoblanadi.

Yüklə 10,89 Kb.

Dostları ilə paylaş:

1 2 3 4