Dastlabki ma'lumotlarni tayyorlash Tasniflash uchun ishlatiladigan usullar va algoritmlar qanchalik mukammal bo'lmasin, ular iflos "ma'lumotlar" ga qo'llanilsa, to'g'ri natija bermaydi. Shuning uchun, NN asosida tasniflash modelini yaratishda birinchi qadam ma'lumotlarni oldindan qayta ishlash va tozalashdir .
Bu yo'nalishdagi birinchi qadam sinf farqlari nuqtai nazaridan muhim xususiyatlarni tanlashdir. Darhaqiqat, predmet sohasi ob'ektlari ko'p sonli xususiyatlar bilan tavsiflanishi mumkin. Ammo ularning hammasi ham turli sinflar ob'ektlarini ishonchli ajratishga imkon bermaydi. Misol uchun, agar turli sinflar ob'ektlari taxminan bir xil o'lchamga ega bo'lsa, unda "umumiy" xususiyatlardan foydalanish mantiqiy emas. Qiymatlari tasodifiy bo'lgan va ob'ektlarning sinflar bo'yicha taqsimlanish naqshlarini aks ettirmaydigan xususiyatlardan foydalanish ham istalmagan.
Bundan tashqari, ishlatiladigan xususiyatlar sonini tanlash muhim rol o'ynaydi. Bir tomondan, klassifikatorni qurishda qanchalik ko'p funksiyalardan foydalanilsa, sinflarni ajratish uchun shunchalik ko'p ma'lumot ishlatiladi. Ammo shu bilan birga, hisoblash xarajatlari va NN hajmiga bo'lgan talablar oshadi (o'quv jarayonida sozlangan parametrlar soni - neyron ulanishlarining og'irliklari). Boshqa tomondan, ishlatiladigan xususiyatlar sonini kamaytirish sinflarning ajratilishini yomonlashtiradi. Masalan, turli sinflar ob'ektlari atributlarning bir xil qiymatlariga ega bo'lganda va qarama-qarshilik paydo bo'lganda vaziyat yuzaga kelishi mumkin.
Masalan, qarz oluvchilarni "yomon" va "yaxshi" ga tasniflash muammosida siz faqat ikkita xususiyatni qoldirishingiz mumkin "Daromad" va "Yosh". Shunda yoshi va daromadi bir xil bo'lgan ikkita qarz oluvchining turli sinflarga tushishi ehtimoli yuqori. Qarz oluvchilarni ajratib ko'rsatish uchun yana bir xususiyatni qo'shish kerak, masalan, qaramog'idagilar soni. Shunday qilib, NN asosida tasniflagichni o'qitish uchun xususiyatlarni tanlash murosaga erishishdir.
O'quv ma'lumotlarini qayta ishlashning yana bir muhim turi xususiyat qiymatlarini 0..1 diapazoniga normallashtirishdir . Normalizatsiya zarur, chunki tasniflash belgilari boshqa jismoniy xususiyatga ega va ularning qiymatlari bir necha darajalar bo'yicha farq qilishi mumkin (masalan, "Daromad" va "Yosh").
Bundan tashqari, NN asosida klassifikatorni qurishdan oldin, ularning sifatini baholash uchun ma'lumotlar profilini yaratish kerak va agar kerak bo'lsa, ularga ma'lumotlarni tozalash vositalarini qo'llash kerak: bo'shliqlarni to'ldirish, anomal qiymatlar va chegaralarni bostirish, dublikat va qarama -qarshiliklarni bartaraf etish .