Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish



Yüklə 14,39 Kb.
tarix01.06.2023
ölçüsü14,39 Kb.
#121655
Topshiriq (1)


  1. Regular Expression(RE) kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.txt fayliga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. NLTK kutubxonasi yordamida input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda Bag of words(BOW) – so`zlar sumkasini shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. Quyidagi link ( https://uz.wikipedia.org/wiki/Turkum:Tarixiy_shaxslar ) orqali uz.wikipedia.org saytidan tarixiy shaxslarning qisqacha ma`lumotlaridan(ism-familiya, tug`ilgan yili, vafot etgan yili) iborat ro`yxat shakllantiring.



  1. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.txt fayliga yozing. Eslatma Frequency table ga so`zlar takrorlanmaydi.



  1. input.txt faylidagi matnni gaplarga, so`zlarga ajratgan holda so`zlar chastotasi(Frequency table)ni shakillantiring va output.xlsx excel faylga yozing. Eslatma BOW ga so`zlar takrorlanmaydi.



  1. Telegram kanal(guruh)laridan matnlarni chiqarib olish va corpus yaratish.



  1. Input.txt faylidan berilgan matndagi so`zlarni 2 o`lchamli vector ga o`ting va tekislikda tasvirlang.



  1. Input.txt faylida krill harflarida berilgan o`zbekcha matnni lotin harflariga o`tiruvchi va output.txt fayliga yozadigan dastur yarating.



  1. Input.txt faylidagi berilgan matndan ro`yhat shakllantiring va ro`yhatni so`zlarning uzunligi bo`yicha tartiblang. Eslatma ro`yxatda so`zlar takrorlanmasin.

Yüklə 14,39 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin