Tahlilga ma’lumotlarni tayyorlash MIT da asosiy rolni ma’lumotlarni o’zi o’ynaydi. Agarda ma’lumotlarning sifati past bo’lsa, unda eng yaxshi amalga oshirilgan tahlil ham maqbul natija bermaydi. Odatda tahlil vazifasi uchun ma’lumotlarni jadval ko’rinishidan foydalaniladi. Har bir qator alohida kuzatuv tavsifiga ega ma’lumot elementi kabi ko’rinadi, har bir ustun esa uning tavsifi uchun o’zgaruvchini o’z ichiga oladi. O’zgaruvchilar atributlar, belgilar yoki hajmdorlik deb ham nomlanadi.
O’zgaruvchilarni asosiy to’rt toifasi mavjud (3-jadval). Qayta ishlanuvchi ma’lumotning har bir toifasi ma’lum qayta ishlash va tahlillash usullarini qo’llashni nazarda tutadi, shu sababli kiruvchi ma’lumotlarga tanlangan algoritmlar qo’llanilishiga ishonch hosil qilish lozim.
3-jadval
MIT da ishlatiladigan o’zgaruvchilarni asosiy toifalari
O’zgaruvchilar toifasi
Tavsif
Binar (ikkilik)
Faqat ikki variantli qiymatga ega o’zgaruvchilarni sodda tofasi
Kategoriyali (sifatli yoki tartibli)
Agar variantlar ikkitadan oshiq bo’lsa, axborot kategoriyali o’zgaruvchi ko’rinishida taqdim qilinishi mumkin. Bu toifa sonli hisoblanmaydi, biroq uning qiymatiga tartibli munosabt berilishi mumkin. Bu holda tartibli kattaliklar to’g’risida gap ketadi.
Butun (miqdoriy)
Bu toifa axborot butun son ko’rinishi ifodalab bo’lganda foydalanilishi mumkin.
Uzluksiz (miqdoriy)
O’zgaruvchini eng axboriy toifasi, qiymatlar haqiqiy sonlar ko’rinishida ifodalanishi mumkin.
Misol, tariqasida Telnet protokoli tarmoq trafigini tahlillash uchun binar o’zgartiruvchilarni to’plamini ko’rib chiqamiz:
Shifrlangan ma’lumotlar alomati;
Qayd qilishga bo’lgan muvaffaqiyatsiz urinishlar;
Qayd qilishga bo’lgan muvaffaqiyatli urinishlar;
Root foydalanuvchi ruxsat huquqlarini olishga urinishlar;
Root foydalanuvchi ruxsat huquqini olish dalili;
Mehmon qayd yozuvi belgilari;
Fayl yaratish amalini bajarilishi.
Sanab o’tilgan belgilardan har biri faqat ikki qiymatni qabul qilishi mumkin – ha/yo’q (True/False, 1/0). Ma’lumotlarni dastlabki to’plamida ko’plab har xil o’zgaruvchilar bo’lishi mumkin bo’lsa ham, algoritmda ko’p miqdorda ularni qo’llanilishi hisoblashni sekinlashishiga yoki axboriy shovqin sababli xato bashoratlarga olibh keladi. Shu sababli natijaga eng ko’p hissa qo’shadigan eng muhim o’zgaruvshilarni qisqa ro’yhatini shakllantirish lozim. O’zgaruvchilar tanlovi odatda urinish va xatoliklar yoki hajmdorlilikni qisqartirish (dimension reduction) usuli yordamida amalga oshiriladi. Ularni qo’shish va olib tashlash oraliq natijalar hisobga olgan holda ma’noga ega. Boshlanishiga keyingi tahlil uchun eng istiqbolli bo’lganlarini tanlab, o’zgaruvchilar orasida korrelyatsiyani aniqlash uchun sodda grafiklardan foydalanish mumkin.
MIT jarayonida tez-tez to’liq bo’lmagan ma’lumotlar bilan to’qnashishga to’g’ri kerak bo’ladi. To’liq bo’lmagan ma’lumotlar tahlilni sezilarli darajada qiyinlashtirishi mumkin, bu esa bir qator analitik usullarni qo’llanilishini imkonsiz qiladi, shu sababli har qanday imkoniyatda quyidagi yo’llardan birini qo’llash bilan keyinchalik foydalanish masalasini yechish lozim.