ertaga yig‘ilishadi” va “uchrashuvga boramiz” otiga qarshi.
maÿlumotlar toÿplami. Matritsani olganimizdan so'ng, biz ushbu matritsadan klassifikatsiya qilish
uchun foydalanishimiz mumkin
oddiy novda (ya'ni, yurish uchun yurish) etarli emas,
chunki u farqlay olmaydi
3-bosqichdan so'ng, birinchi navbatda, bizning dastlabki fikrimiz pythonning TF-IDF algoritmidan [6] foydalanishdir.
Ushbu atama chastotasini saqlash uchun 2 o'lchovli matritsani yarating. Har bir qator ko'rsatadi
pochta ro'yxatidagi munozaralar. Ushbu bo'limda biz
tasnifni muhokama qilamiz
ish vaqtining samaradorligi va hatto bizning tasnifimizning aniqligi.
2.5 Tasniflash uchun 2 o'lchovli matritsa hosil qiling
shuning uchun ularni bitta element sifatida tahlil qilish mumkin. Masalan, “yurish”ni
aniqlash,
so'zlar ma'lumotlar to'plamida juda keng tarqalganligini ko'rsatadi va u ham shunday
chunki bu biz xohlagan "haqiqiy" ma'lumotlar.
Chegara shunday tanlangan
uzilish turini tasniflash, agar biz ularni boshqa so'z
deb hisoblasak, u yaxshilanmaydi
uzilish. Ammo yuqori qiymatli so'zlarni olish uchun TF-IDF algoritmidan foydalanganimizdan so'ng,
biz topdik
3. TASNIFLASH METODOLOGIYASI
kontekstga asoslangan nutq qismlari: masalan, “uchrashuv” atamasi fe’l vazifasini bajarsa: “biz
har
xil mavzu, har bir ustunda paydo bo'ladigan turli so'zlarni ko'rsatadi
Natural Language Toolkit (NLTK) tf-idf qiymati 0,2 dan kam bo'lgan so'zlarni filtrlash uchun.
Stemlash va Lemmatizatsiya qilishning sababi o'lchamini kamaytirishdir
4-bosqichdan so'ng biz ma'lumotlar to'plamidagi har bir so'z uchun atama chastotasini
qayta hisoblaymiz va
vaqt o'tishi bilan uzilishlarni tizimli ravishda tasniflashga yordam beradigan metodologiya.
"Yurgan" va "yurgan" bir xil fe'lning barcha shakllari: "yurish". E'tibor bering,
Dostları ilə paylaş: