Data Mining texnologiyasında təsnifat məsələsinə analiz edilən obyektlərin parametrlərindən birinin qiymətinin digər parametrin qiymətinə əsasən təyin edilməsi məsələsi kimi baxılır. Təyin olunan parametrə asılı dəyişən, onun təyinatında iştirak edən parametrlərə isə qeyri–asılı dəyişənlər deyilir. Baxılan misallarda qeyri-asılı dəyişənlər bunlardır :
-əmək haqqı, iş yeri, yaşı, ailə tərkibi və s.
-pikselin rənginin qiymətləri.
Həmin misallarda asılı dəyişənlər:müştərinin kredit qabiliyyəti (mümkün qiymətlər: hə, yox); surətə uyğun rəqəm ( mümkün qiymətlər: 0,1....,9).
Misallardan göründüyü kimi, qeyri-asılı dəyişən sonlu qiymətlər çoxluğundan(hə,yox), (0,1,...,9) hər hansı bir qiymət alır.
Əgər asılı və geyri-asılı dəyişənlərin qiymətləri həgigi onluq ədələrdirsə, bu cür məsələ reqressiya adlanır.Reqressiya məsələsinə misal olaraq bankın müştəriyə verə biləcəyi kreditin məbləğinin təyin edilməsi məsələsini göstərmək olar.
Təsnifat və reqressiya məsələləri iki mərhələdə həll olunur.1-ci mərhələdə “öyrədən seçim” təyin edilir. Buraya asılı və qeyri-asılı dəyişənləri bəlli olan obyektlər daxil edilir. Yuxarıda baxılan misallarda bu cür öyrədən seçimlər aşağıdakılar ola bilər:
-əvvəllər kredit almış müştərilər və onların krediti ödəmələri haqqında informasiya;
-əvvəllər tanınmış rəqəmlərin surətlərinin matrisləri.
Öyrədən seçim əsasında asılı dəyişənin qiymətlərini təyin edən model qurulur. Həmin modelə çox vaxt təsnifat və ya reqressiya funksiyası deyilir. Dəqiq funksiyanın alınması üçün öyrədici seçimə aşağıdakı tələblər qoyulur:
-seçimə daxil edilən obyektlərin sayı kifayət qədər böyük olmalıdır.Obyektlərin sayı nə qədər çox olsa, onun əsasında qurulan təsnifat və ya reqressiya funksiyası bir o qədər dəqiq olar;
-bütün mümkün sinifləri (təsnifatda) və ya qiymətlər oblastını (reqressiyada) əhatə edən obyektlər seçimə daxil edilməlidir;
-hər bir sinif üçün (təsnifatda) və ya qiymətlər oblastının hər bir intervalı üçün (reqressiyada) seçimdə kifayət sayda obyektlər olmalıdır.
Qurulan model 2-ci mərhələdə analiz edilən obyektlərə (asılı dəyişənin qiyməti qeyri-müəyyən olan obyektlərə) tətbiq edilir.
Təsnifat və reqressiya məsələlərinin həllində rast gələn əsas problemlər bunlardır: 1) Səhv və (və ya) buraxılmış verilənlərin mövcudluğu səbəbindən ilkin verilənlərin keyfiyyətinin aşağı olması; 2)Atributların tiplərinin müxtəlif (ədədi, hərfi və s.) olması; 3) Atributların müxtəlif cür qiymətləndirilməsi; “Overfitting” və “uniderfitting” problemlərinin olması. “Overfitting (üstyığım) probleminin mahiyyəti ondan ibarətdir ki, təsnifat funksiyası qurulan zaman o verilənlərə “çox yaxşı” adaptasiya olunur, rast gələn səhvlər və anomal qiymətlər verilənlərin daxili strukturu kimi interpretasiya edilir. Aydındır ki, bu cür model sonradan digər verilənlərlə düzgün işləməyəcək, çünki bu halda səhvlərin xarakteri başqa cür olacaq. “Underfittinq (altyığım) termini ilə klassifikatorun öyrədici çoxluğu yoxlayan zamanı səhvlərin həddən çox olması problemi göstərilir. Bu o deməkdir ki, verilənlərdə hər hansı qanunauyğunluq aşkarlanmayıb, ya onlar ümumən yoxdur və ya onların aşkarlanması üçün digər metod seçilməlidir.
Dostları ilə paylaş: |