Antract ushbu mavzuni Internetda uzilishda katta harakat, mualliflar tabiiy tildan foydalanadilar ma'lumotlar to'plami



Yüklə 0,65 Mb.
Pdf görüntüsü
səhifə4/9
tarix20.03.2023
ölçüsü0,65 Mb.
#88876
1   2   3   4   5   6   7   8   9
[2]Network Outage Analysis and Real-Time Prediction (1)

2.4 TF-IDF
tasniflash effekti, lekin ma'lumotlarning o'lchamini oshirsa, u kamayadi
Dastlabki qayta ishlashimizda olingan atamalar va iboralar yuqori darajadagi ko'rinishni beradi
Ba'zi yuqori tf-idf qiymatli so'zlar ham bizning uzilish turi tasnifiga ta'sir qilmaydi.
ma'lumotlar, chunki shaxs va shaxslar ma'lumotlarda bir xil ta'sir va ma'noga ega
chunki bu so'zlar turni tasniflash uchun tasniflash usuli uchun foydali emas
tf-idf qiymati bo'yicha atamalarning pastki 29% filtrlangan
0,2 ni tanlaganimiz sababi nafaqat past tf-idf qiymatiga ega so'zlar
Machine Translated by Google


Bundan tashqari, ushbu 13 turdagi uzilishlar qatorida, biz yana bir noma'lum toifani qo'shamiz, chunki
5-rasm: 315 ta ipda uzilish turlarini taqsimlash
bilim, ba'zan etiketlash vazifasi noaniqlik bilan ishlaydi. Masalan, zilzila
Qaysi uzilish turlarini aniqlash uchun noto'g'ri ma'lumotlarga ega bo'lgan ba'zi xabarlar mavjud
3.1 Belgilash
Tarmoq uzilish turlari, biz uzilishlarni 13 xil turga ajratamiz: Marshrutlash, Quvvat
Chiqib ketish, tabiiy ofat, mobil ma'lumotlar tarmog'i, tolalarni kesish, DNS ruxsati, qurilma
ular bo'lishi kerak. 4-rasmda biz Internetdagi uzilish turlarini qanday qilib katta hajmdan aniqgacha
toifalashimiz ko'rsatilgan.1
Birinchidan, bizning tarmoq bilimimiz va umumiy asosimiz
Bizning maqsadimiz har bir uzilishni avtomatik ravishda toifalarga ajratishdir
Muvaffaqiyatsizlik, tirbandlik, tsenzura, hujum, texnik xizmat ko'rsatish, server va inson xatosi[3]. In
mintaqadagi kabellarga zarar yetkazadi va kabellarning shikastlanishi Internetning uzilishiga olib keladi. kerak
bu o'lchamlar bo'ylab. Biroq, chunki kompyuterlar tarmoqqa ega emas
4-rasm: Yorliqlash mezoni
Machine Translated by Google


noaniq, kompyutersiz kompyuter uchun qanchalik qiyin bo'lishini eslatib o'tishga hojat yo'q
Oldingi qismda biz uzilish turi diskret ekanligini bilamiz, shuning uchun hujjatdan foydalanishimiz mumkin
ma'lumotlar to'plami juda katta, barcha ma'lumotlarni qo'lda belgilash ma'nosizdir. Shuning uchun biz foydalanishga qaror qildik
ma'lumotlar to'plamini 14 toifaga bo'lish orqali biz mavzu tegishli yoki yo'qligini aniqlaymiz
turlari ko'p (14 turdagi), ya'ni unumdorligi past, vaqt talab qiluvchi va
quyida tasvirlangan o'quv jarayonimizni yuklash uchun qo'lda teglar.
bu yerda har bir soÿzning kelishi klassifikatorni oÿrgatish xususiyati sifatida ishlatiladi.[9] Shunday qilib
izchil, biz Fleiss metrikasidan foydalanamiz [8]; qiymati uzilishlar turlari uchun 0,63 edi, qaysi
grammatika va so'z tartibini e'tiborsiz qoldirib, lekin saqlaydigan so'zlarning ko'p to'plami
3.2.1 Ma'lumotlar to'plamini o'qitish
us yorlig'i 315 ta ip (107 ta mashg'ulot uchun, 108 ta test aniqligi uchun). Uzilish turi
so'z muammosi. Bag-of so'z modeli tabiiyda qo'llaniladigan soddalashtiruvchi tasvirdir
ma'lumotlar. Biz ushbu usul bizning ma'lumotlar to'plamimizga mos kelishini va sezilarli darajada ishlab chiqarishini aniqladik
muammoni hal qilish uchun tasniflash usuli. Chunki bizning ma'lumotlar to'plamimiz juda ko'p
tarmoq bilimlari bazasi. Shunday qilib, biz hal qilish uchun "noma'lum" qo'shimcha toifani aniqlaymiz
yarim nazorat ostida o'rganish, biz ma'lumotlarning kichik qismini belgilaymiz (ma'lumotlar to'plamimizning taxminan 15%)
bu uzilish Tabiiy ofat yoki tolaning uzilishi deb tasniflanadimi? Hatto inson uchun bu javob
yomonroq natija. Shunday qilib, biz uni bir nechta ikkilik tasniflash muammosi bo'lish uchun soddalashtiramiz. Buning o'rniga

Yüklə 0,65 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin