3. İstisnalarınanalizi. DATA MINING prosesinin 3-cü mərhələsində əvvəlki mərhələlərdə tapılan qanunauyğunluqlardakı istisnalar və ya anomaliyalar analiz edilir. Bu mərhələdə yerinə yetirilən əməliyyat sapmaların üzə çıxarılmasından ibarətdir. Bunun ücün sərbəst axtarış mərhələsində hesablanan normaları təyin etmək lazımdır.
Əvvəlki misallardan birinə qayıdaq. Sərbəst axtarış mərhələsində belə bir qayda çıxarılmışdır: «Əgər iddiaçının yaşı 35-dən və arzu etdiyi əmək haqqı 1200 $-dan çoxdursa, onda 90% əminliklə demək olar ki, o rəhbər vəzifə axtarır». Bu qaydadan bir sual cıxır: bəs qalan 10%-i hara aid etməli? Burada iki variant ola bilər. 1-ci variant: qayda şəklində tərtib edilə bilən hər hansı məntiqi izah var. 2-ci variant-qalan 10% ilkin verilənlərdəki səhvlərdir. Bu halda istisnaların analizi mərhələsi verilənlərin təmizlənməsi üçün istifadə edilir.
Verilənlərin təmizlənməsi DATA MINING texnologiyasının mühüm problemlərindən biri hesab olunur. Verilənlərin təmizlənməsi ücün mövcud olan vasitələri 3 sinfə ayırırlar:
1.Verilənlərin analizi və yeniləşdirilməsi vasitələri;
2.Xüsusi təmizləmə vasitələri:
-spesifik sahənin təmizlənməsi;
-təkrarlanmaların aradan qaldırılması;
3.ETL instrumental vasitələri.
1-ci sinif vasitələrə verilənlərin fayl-yönlü vasitələri və DATA MINING vasitələri daxildir. Verilənlərin fayl-yönlü təmizlənmə vasitələrinin tipik nümayəndəsi MIGRATIONARCHITECT kommersiya instrumentidir. Hər bir artibut üçün o, aşağıdakı metaverilənləri təyin edir: verilənlərin tipi, ölçüsü, elementlər çoxluğu, diskret qiymətlər, minimal və maksimal qiymətlər, itirilmiş qiymətlər və unikallıq. DATA MINING vasitələrinə aid olan WIZRULE və DATAMININGSUITE proqramları atributlar və onların qiymətləri arasındakı münasibətləri üzə çıxarır və düzgünlük səviyyəsini hesablayırlar. WIZRULE üç cür qaydanı analiz edə bilir: riyazi düsturları, «əgər-onda» qaydasını və yazılış qaydasını. Verilənlərin yeniləşdirilməsi vasitələri, məsələn, INTEGRITY proqramı aşkarlanan şablonlardan və qaydalardan təmizləyici çevrilmələrin təyini və yerinə yetirilməsi üçün istifadə edir.
Xüsusi təmizləmə vasitələri adətən konkret sahələrlə əməliyyat aparmaq (əsasən adlarla və ünvanlarla) və təkrarlanmaları aradan qaldırmaq üçün istifadə edilir. Çevrilmələr ya qaydalar kitabxanası formasında əvvəlcədən, ya da istifadəçi tərəfindən interaktiv rejimdə aparılır. Verilənlərin çevrilməsi sxemin uyğunlaşdırılması vasitələri ilə avtomatik aparıla bilər. Adların və ünvanların təmizlənməsi üçün bir sıra kommersiya instrumentləri mövcuddur, məsələn, IDCENTRIC, PUREINTTEGRATE, QUICKADDRESS, REUNION, TRILLIUM və s. Təkrarlanmaların aradan qaldırılması ücün DATACLEANSER, MATCHIT, MASTERMERGE və s. instrumentlərindən istifadə edilir. Onlar adətən tələb edirlər ki, verilənlər mənbələri artıq təmizlənmiş və uyğunlaşdırmağa hazır olsunlar.
ETL instrumental vasitələri (Extraction, Tranformation, Loading (Çıxarılma, Çevrilmə, Yüklənmə)) verilənlərin çevrilməsi və təmizlənməsi texnoloji prosesinin əsas hissəsini yerinə yetirirlər. ETL vasitələrinin çatışmazlığı ondan ibarətdir ki, metaverilənlər üçün özlərinin xüsusi formatlarından istifadə etdiklərindən, digər təmizləmə vasitələri ilə qarşılıqlı əlaqələr yaratmaq və onlarla birgə istifadə olunmaları mümkün olmur.
Bir sıra kommersiya vasitələri verilənlər anbarları ücün kompleks səviyyədə ETL prosesini təmin edirlər, məsələn, COPYMANAGER, DATASTAGE, EXTRACT, POWERMART, DECISIONBASE, METASUITE, WAREHOUSEADMINSTRATOR və s. Verilənlər mənbələri və verilənlər anbarı üzrə bütün metaverilənlərin həmahəng idarə olunması üçün onlar VBİS əsasında yaradılmış repozitorilərdən istifadə edirlər. Operativ verilənlər mənbələrindən verilənlər və sxemlər həm sistemin öz faylı və DMBS şlüzü vasitəsilə, həm də ODBC və EDA standart interfeyslər vasitəsilə çıxarılır. Verilənlərin çevrilməsi sadə qrafik interfeys vasitəsilə təyin olunur.