Antract ushbu mavzuni Internetda uzilishda katta harakat, mualliflar tabiiy tildan foydalanadilar ma'lumotlar to'plami

Yüklə 0,65 Mb.

Pdf görüntüsü

səhifə	3/9
tarix	20.03.2023
ölçüsü	0,65 Mb.
	#88876

1 2 3 4 5 6 7 8 9

[2]Network Outage Analysis and Real-Time Prediction (1)

2.5 Tasniflash uchun 2 olchovli matritsa hosil qiling
3. TASNIFLASH METODOLOGIYASI

2.3 Stemming va lemmatizatsiya
va boshqalar.
MailScanner tomonidan va toza ekanligiga ishoniladi. Biz bunday xabarlarga shunday munosabatda bo'ldik
6.Tashkilot va inson nomlari. Ushbu tashkilot va inson ismlari yo'q
yuqoridagi ro'yxatdagi taxminan 4 turdagi so'zlar), ro'yxatdagi so'zlarni olib tashlash
plakatlar tomonidan ishlatiladigan imzolar va tizim yoki antivirus dasturi tomonidan qo'shilgan ba'zi ma'lumotlar.
Machine Translated by Google

ertaga yig‘ilishadi” va “uchrashuvga boramiz” otiga qarshi.
maÿlumotlar toÿplami. Matritsani olganimizdan so'ng, biz ushbu matritsadan klassifikatsiya qilish uchun foydalanishimiz mumkin
oddiy novda (ya'ni, yurish uchun yurish) etarli emas, chunki u farqlay olmaydi
3-bosqichdan so'ng, birinchi navbatda, bizning dastlabki fikrimiz pythonning TF-IDF algoritmidan [6] foydalanishdir.
Ushbu atama chastotasini saqlash uchun 2 o'lchovli matritsani yarating. Har bir qator ko'rsatadi
pochta ro'yxatidagi munozaralar. Ushbu bo'limda biz tasnifni muhokama qilamiz
ish vaqtining samaradorligi va hatto bizning tasnifimizning aniqligi.
2.5 Tasniflash uchun 2 o'lchovli matritsa hosil qiling
shuning uchun ularni bitta element sifatida tahlil qilish mumkin. Masalan, “yurish”ni aniqlash,
so'zlar ma'lumotlar to'plamida juda keng tarqalganligini ko'rsatadi va u ham shunday
chunki bu biz xohlagan "haqiqiy" ma'lumotlar. Chegara shunday tanlangan
uzilish turini tasniflash, agar biz ularni boshqa so'z deb hisoblasak, u yaxshilanmaydi
uzilish. Ammo yuqori qiymatli so'zlarni olish uchun TF-IDF algoritmidan foydalanganimizdan so'ng, biz topdik
3. TASNIFLASH METODOLOGIYASI
kontekstga asoslangan nutq qismlari: masalan, “uchrashuv” atamasi fe’l vazifasini bajarsa: “biz
har xil mavzu, har bir ustunda paydo bo'ladigan turli so'zlarni ko'rsatadi
Natural Language Toolkit (NLTK) tf-idf qiymati 0,2 dan kam bo'lgan so'zlarni filtrlash uchun.
Stemlash va Lemmatizatsiya qilishning sababi o'lchamini kamaytirishdir
4-bosqichdan so'ng biz ma'lumotlar to'plamidagi har bir so'z uchun atama chastotasini qayta hisoblaymiz va
vaqt o'tishi bilan uzilishlarni tizimli ravishda tasniflashga yordam beradigan metodologiya.
"Yurgan" va "yurgan" bir xil fe'lning barcha shakllari: "yurish". E'tibor bering,

Yüklə 0,65 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6 7 8 9