Regression tahlil – natijaviy o’zgaruvchi va prediktorlar orasidagi bog’liqliklarni qayta tiklash usulidir. Ma’lumotlar elementlarini eng katta soniga maksimal yaqin keluvchi eng mos kelgan chiziq topiladi. Bunday trend chizig’i ta’sir qiluvchi belgilarni o’lchangan kombinatsiyasi asosida hisoblanadi.
Ko’p o’lchamli regression tahlil chiquvchi belgilarni miqdoriy qiymatini bashoratlash uchun juda foydali va keng qo’llaniladigan model hisoblanadi. Regression tahlil belhilar orasidagi bog’liqliklarni aniqlash; bashoratlash va sinflashtirish (sinflar orasida ajratuvchi tekisliklarni berish uchun regression bog’liqlikdan foydalanilinganda) vazifasini yechish imkonini beradi.
Regression tahlilga quyidagi umumlashgan ko’p bosqichlik yondashuvlarni ajratishadi:
Vazifani shakllantirish – tadqiq qilinayotgan hodisalarni bog’liqlilgi to’g’risida ehtimoliy gipotezalar ta’kidlanadi;
Bog’liq va mustaqil o’zgaruvchilarni aniqlash (ta’siq qiluvchi);
Statistik ma’lumotlarni yig’ish – ma’lumotlar regression modelga kirgan o’zgaruvchilarni har birini o’zgarishini akslantirishi lozim;
Aloqa shakli (sodda yoki ko’p, chiziqli yoki nochiziq) va regression tenglama tuzish to’g’risida gipotezni shakllantirish;
Regressiya funksiyasini aniqlash – regression tenglama sonli parametrini hisoblash;
Regressiya ta’sir qiluvchi belgilar qiymatlarini buzilishiga sezgir va natija beruvchi o’zgaruvchilarni qiymatlarini buzilishiga deyarli bardoshli.
k-yaqin qo’shnilar usuli. Ma’lumot elementlari qo’shni elementlarga yaqinliligidan kelib chiqib sinflashtiriladi. Yaqin qo’shnilar soni k teng qilib beriladi.
k-yaqin qo’shnilar usuli asosida sinovdan o’tuvchi obyekt o’zining yaqin atrofidagi lokal sohada o’qitiladigan obyektlar sinfi kabi belgisi bo’lishini nazarda tutuvchi kompaktlik gipotezasi yotadi. Bunda har bir obyekt yaqin qo’shnisini sinfiga taalluqli.
k=1 bo’lganda o’qiuvchi tanlov misollarini to’g’ri tanib olishga erishiladi (eng yaqin qo’shni – bu obyektni o’zi), biroq noma’lum ma’lumotlarda qisman xatoliklar bo’ladi. k>1 ma’lum chegaradan oshganda nazorat tanlovida tanib olish o’sadi. Optimal nuqtai-nazardan k qiymatini bashoratlash kesishma tekshiruvidan foydalanilib topilishi mumkin. Buning uchun k ni aniq turli qiymatlari uchun k-yaqin qo’shnilar modeli quriladi va sinflashtirish xatoliklari baholanadi. So’ngra eng kam xatolikka mos keladigan k qiymat tanlanadi.
Tayanch vektorlar usuli. Ma'lumotlar elementlarini ikki guruhga ajratadi, ular orasidagi chegara ma'lumotlarning qo’shimcha elementlari, ya'ni har ikki guruhning qo'llab-quvvatlovchi vektorlari o'rtasida yotadi. Qo'llab-quvvatlash vektoridagi klassifikatorning asosiy g'oyasi - ajratish uchun juda muhim bo'lgan zonada joylashgan nuqtalarning faqat kichik qismini ishlatib, ajratuvchi sirtni yaratishdir, qolgan qismi esa ushbu hududdan tashqarida o'qitiladigan namunaning to'g'ri tasniflangan kuzatuvlarini e'tiborsiz qoldiriladi (aniqroq aytganda, optimallash algoritmi uchun "zahira"). Aslida, tayanch vektorlari to'g'ridan-to'g'ri ajratish yuzasining chegarasida yoki bo'sh joy chegaralariga nisbatan o'z sinfining noto'g'ri tomonida joylashgan kuzatishlarga aytiladi.
Yadro vazifalari — nochiziqlikni hisoblash uchun egri chegaralar bilan ishlashda, odatda, boshlang'ich prognozlarda turli funksional o'zgarishlar, shu jumladan, o'zgaruvchilar oralig’i kengaytiriladi. Har bir yadro optimallashtirilishi kerak bo'lgan parametrlar bilan tavsiflanadi. Yadrolardan foydalanishning asosiy g'oyasi shundaki, ma'lumotlarni yuqori o'lchamli maydonga ko'rsatishda dastlabki nuqta to'plami chiziqli ravishda ajratilishi mumkin. Katta o'lchamdagi kengaygan joylarda optimallashtirish muammosini hal qilish mumkin edi, chunki yadro faqat cheklangan tayanch vektorlari uchun yaratilgan. Bu turli xil shakllarning ajratuvchi sirtlari yordamida modellarni yaratish imkonini beradi.
Giper tekislikning joylashuvi faqat bo'shliq chegaralarida joylashgan yoki uni buzadigan kuzatishlar ta'sir qilganligi sababli, bunday tasniflashning hal qiluvchi qoidasi bo'linishning "favqulotda hudud"dan tashqarida joylashgan ko'pchilik nuqtalarning tashlab yuborilishiga juda chidamli. Bu xususiyat tayanch vektorlarning usulini boshqa tasniflagichlardan ajratib turadi.
Yechimlar daraxti.Diomiy ravishda ma’lumotlar elementlarini bir toifadagi guruhlarga ajratib boradigan binar savollarni ketma-ketligini shakllantirish yo’li bilan bashoratni hosil qilaigan usul.
Yechimlar daraxti bitta uchga (ildizga) ega bo’lib, birorta ham yoy chiqmaydigan uch – barg bilan tugaydi. Bunda daraxt pastga qarab o’sadi deb olinadi (haqiqiy daraxt kabi yuqoriga qarab emas). Yechimlar daraxti quyudagi turli belgilarga ega bog’liq asiklik graf ko’rinishida bo’ladi:
Tugunlar (barg hisoblanmagan uchlar) – ma’lumotlarni o’zgaruvchilar to’plami;
Yoylarda (shoxlar) asosiy funksiyaga bog’liq atributlar (o’zgaruvchilar qiymatlari) belgilanadi;
Barglarda asosiy funksiya qiymatlari belgialandi.
Umuman sinflashtirish masalasini yechish uchun daraxt bo’ylab, yuqori uchdan barggacha tugunlarda muvofiq amallarni bajarib va bunda mos yoyni tanlab tushib borish lozim.
Yechimlar daraxti oldindan ma’lumotlar qayta ishlovini talab qilmaydi, kategoriyali o’zgaruvchilar bilan ishlay oladi, vizualizatsiya va tushunish uchun sodda, nisbatan yuqori ishonchlilik va aniqlik bilan ajralib turadi.