Siz tashrif buyurgan restoranni qanday baholaysiz?
Restoranga birinchi bor tashrif buyurganimizda, biz ularning taomlarining ta’mi bilan tajribaga ega emasmiz (ya’ni, biz oldindan aytib bo‘lmaydi) va biz taomning qanchalik yaxshi ekanligini baholaymiz. Boshqa tomondan, biz tez-tez tashrif buyuradigan restoranlarda “bu odatdagidek yaxshi emas” kabi prognozlarimizdan farqni baholashimiz mumkin. Agar shunday salbiy taxmin qilish xatosi davom etsa, biz restoranning bahosini pasaytiramiz va restoranga boshqa tashrif buyurmaymiz.
Ushbu baholash jarayonini mustahkamlash ta’lim nazariyasi bilan izohlash mumkin. Ushbu nazariyada ikkita tushuncha mavjud:
atrof-muhit;
agent.
Masalan, karta o‘yinida o‘yin qoidalari va raqib atrof-muhitdir va siz o‘zingiz agentsiz. T vaqt muhitidagi agent keyin muhit a(t) mukofotga s(t) holatiga qarab harakat qiladi va keyingi holatga r(t) holatiga o‘tishni beradi. Ushbu muhitda agent (inson yoki robot) vaqt o‘tishi bilan kutilgan mukofot summasini maksimal darajada oshiradigan xatti-harakatlarni o‘rganadi s(t+1). Mukofotlarning kutilayotgan summasi kutilgan mukofot yoki qiymat funksiyasi deb ataladi. s(t) holati bilan t vaqtda kutilayotgan mukofot quyidagicha aniqlanadi.
V (s(t)) = E[r(t) + dr(t + 1) + d 2 r(t + 2) + ...] (1)
(Hozirgi qiymat) = (Taqdim etilgan mukofot) + d ´(bir davrda mukofot) + d 2 ´(ikki davrda mukofot) +...
Bu yerda kelajakdagi mukofot chegirma faktori δ (0
<δ<1) bilan chegiriladi.
Bu yerda kelajakdagi mukofot chegirma faktori δ (0<δ<1) bilan chegiriladi.
Ya’ni, kelajakda qancha mukofot kutilsa, mukofotning qiymati shunchalik kam bo‘ladi. Bu vaqtni afzal ko‘rish tushunchasidir.
Qiymat funksiyasining vaqtinchalik farqi mukofotni taxmin qilish xatosi deb ataladi va quyidagicha hisoblanadi.