5.Stop so'zlar (masalan, artikl, old qo'shimchalar va olmoshlar). Shuningdek, biz to'xtash ro'yxatidan foydalanamiz
NLP (tabiiy tilni qayta ishlash) tahlilining samaradorligi va aniqligi.. . .
ahamiyatsiz so'zlarni 9 toifaga ajrating va ularni quyida ko'rsating.
4.Tracout o'lchovlari. Biz bu ma'lumotni foydasiz deb o'ylaymiz, chunki faqat asoslangan
9. Boshqalar. Bunga ba'zi ob'ektlar so'zlari kiradi (masalan, muammo, ma'lumot, va hokazo) yoki
2-bosqichdan so'ng, qolgan so'zlarning ildizi va lemmatizatsiyasi kerak (guruhlash
are-da tarmoq uzilishi bilan bog'liq kichik narsalar mavjud.
7.Vaqt-vaqt-joy-o‘rin so‘zlari. Kunduz, tun, NYC, San-Xose va boshqalar kabi.
Ushbu qismda biz ahamiyatsiz so'zlarni olib tashlaymiz. "Ahamiyatsiz so'zlar" atamasi bilan biz tushunamiz
SMART axborot-qidiruv tizimidan olingan so'zlar[5].
Ma'lumotnomada keltirilgan usullar bilan solishtirganda[3] (faqat olib tashlaydi
soxta ma'lumotlar va ularni yo'q qilish kerak.
Sprint, AT&T, Gari, Tim kabi uzilishlar sabablarini tahlil qilish biz uchun ma'noni anglatadi.
Yuqoridagilar bizning NLP tahlilimizni aniqroq va samaraliroq qiladi.
1. Soxta ma'lumotlar. Biz identifikatsiya qiluvchi elektron pochtani o'z ichiga olgan soxta ma'lumotlarni olib tashladik
Tarmoq bilan hech qanday aloqasi bo'lmagan, lekin ta'sir qilishi mumkin bo'lgan ibora ("uchun" kabi).
Traceroute o'lchovlari biz voqeaning asl sababini aniqlay olmaymiz.
Masalan, “Ushbu xabar viruslar va xavfli kontent uchun tekshirilgan
8. Ba'zi bir-biriga bog'liq bo'lmagan qisqartma so'zlar. Masalan, ICS, ISP va boshqalar.
python Natural Language Toolkit (NLTK) yordamida so'zning turli xil flektiv shakllari)
tarmoq uzilishlarini tahlil qilish uchun foydasiz bo'lmagan so'zlar. Biz ularni tasniflaymiz
3. Tinish belgilari va raqamlar.
2. Havolalar. Keyin biz postlardagi url, veb-sayt havolalari va elektron pochta havolalarini e'tiborsiz qoldirdik. Bular
Dostları ilə paylaş: