Axborot izlash bosqichlari


Zipf qonunlaridan foydalanish



Yüklə 18,8 Kb.
səhifə8/8
tarix02.01.2022
ölçüsü18,8 Kb.
#36714
1   2   3   4   5   6   7   8
Axborot izlash bosqichlari savollar1

Zipf qonunlaridan foydalanish

Matnda so'z necha marotaba uchraganiga so'zning paydo bo'lish chastotasi deyiladi. Agar siz chastotalarni pasayish tartibida tartiblasangiz va ularni raqamlasangiz, u holda chastotaning seriya raqami chastota darajasi deb nomlanadi. Matnda so'zni topish ehtimoli \u003d so'zning yuzaga kelish chastotasi / matndagi so'zlarning soni. Zipf shuni aniqladiki, agar biz matndagi so'zni topish tezligini chastota darajasiga ko'paytirsak, natijada olingan qiymat bir xil tildagi barcha matnlar uchun deyarli o'zgarmas bo'ladi:

C \u003d (so'zlarning paydo bo'lishi chastotasi X chastotasi darajasi) / so'zlar soni

Bu shuni anglatadiki, daraja grafigi chastotaga nisbatan teng tomonli giperboldir.



Zipf shuningdek, berilgan chastotaga ega bo'lgan so'zlar sonining chastotaga bog'liqligi ham bir tilda bo'lgan barcha matnlar uchun giperbola va doimiy ekanligini aniqladi.

Ushbu qonunlardan nimani o'rganish mumkin? Yuqoridagi turli matnlarga bog'liqlikni o'rganish shuni ko'rsatdiki, matnning eng muhim so'zlari diagrammaning o'rtasiga to'g'ri keladi, chunki maksimal chastotali so'zlar odatda old qo'shimchalar, zarralar, olmoshlar, ingliz tilida - maqolalar ("to'xtash so'zlari" deb nomlanadi) va kamdan-kam uchraydigan so'zlar ko'p holatlarda tanqidiy emas. Ushbu naqsh asosida quyidagi metodologiyani taklif qilish mumkin.
Yüklə 18,8 Kb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin