Data mining bosqichlari Berilganlarni intellektual tahlili masalasini yechishda bosqichlar:
1. Predmet sohasini tahlil qilish, tadqiqot maqsadi va vazifalarini shakllantirish.
2. Berilganlarni ajratib olish va saqlash.
3. Berilganlarga dastlabki ishlov berish :
- tozalash (inglizcha tozalash; qarama-qarshiliklarni, tasodifiy ajratmalar va shovqinlar, o’tkazib yuborilgan qiymatlar);
- integratsiya (ingliz. integratsiya; bir nechta mumkin boʻlgan manbalardan olingan berilganlarni bir saqlagichga birlashtirish);
- o’girishlar (inglizcha transformatsiya; berilganlarni yig‘ish va zichlash, atributlarni diskretlashtirish va o‘lchamlarni qisqartirish va hokazolarni o‘z ichiga olishi mumkin).
4. Data Mining usullari bilan berilganlarni mazmunli tahlil qilish (umumiy qonuniyatlarni aniqlash yoki aniq, konkret masalani yechish).
5. Olingan natijalarni qulay formatda taqdim etish orqali talqin qilish (foydali naqshlarni vizuallashtirish va tanlash, ma’lumotlar grafigi va/yoki jadvallarini shakllantirish).
6. Yangi bilimlardan qaror qabul qilishda qo’llash.
Berilganlarni tahlilida qonuniyatlarning umumiy turlari Odatda qonuniyatlarning 5 standart turlar ajratilib ko’rsatiladi:
Assotsiya;
Ketma-ketlik;
Sinflar;
Klasterlar;
Vaqt qatorlari.
Assotsiatsiya bir nechta hodisalar bir-biri bilan bog'liq bo'lganda sodir bo'ladi. Misol uchun, tadqiqotlar shuni ko'rsatadiki, makkajo'xori chiplarini sotib olgan mijozlarning 75 foizi kola ham sotib oladi. Ushbu assotsiatsiya ushbu turdagi oziq-ovqat "paketi" uchun chegirma taklif qilish va, ehtimol, sotishni ko'paytirish imkonini beradi.
Agar bir nechta hodisalar vaqt bo’yicha bir-biri bilan bog'langan bo'lsa, u holda ketma-ketlik deb ataladigan bog'liqlik turi mavjud (eng. Sequential Patterns). Misol uchun, 45% hollarda uy sotib olingandan so'ng, bir oy ichida yangi gaz plita ham sotib olinadi va ikki hafta ichida yangi kelganlarning 60% muzlatgichga ega bo'ladi.
Sinflar qonuniyatlari (ing. Classes) ob'ektlarning bir nechta oldindan tuzilgan sinflari (guruhlari, turlari) mavjud bo'lganda yuzaga keladi. Qandaydir yangi ob'ektni mavjud sinflarga tegishligi klassifikatsiya orqali amalga oshiriladi.
Klasterlar (inglizcha klasterlar) qonuniyatlari sinflar (guruhlar, turlar) oldindan belgilanmaganligi, ularning soni va tarkibi klasterlash protsedurasi natijasida avtomatik tarzda aniqlanishi bilan farqlanadi.
Saqlangan retrospektiv ma'lumotlar mavjud vaqt qatorlarini (Ing. Time Series) izlash va kelajakdagi vaqt davrlari uchun ulardagi qiymatlar dinamikasini bashorat qilishdan iborat bo'lgan boshqa qonuniyatlarni aniqlashga imkon beradi.