Til normasi va xabarlarning ortiqchaligi Har bir til uchun siz til normasi deb ataladigan qiymatni kiritishingiz mumkinrva formula bilan aniqlanadi
r = H(m)/N,
QayerdaH(m)xabarning entropiyasidir vaN– foydalaniladigan til belgilaridagi xabar uzunligi. Til me'yorini xabarning har bir belgisi uchun ma'lumot miqdori deb hisoblash mumkin. Til me'yori turli tillar uchun, shuningdek, turli uzunlik va mazmundagi xabarlar uchun har xil bo'ladi. Shunday qilib, masalan, turli tadqiqotchilar ingliz tilining normasini dan oralig'ida baholaydilar1,0 dan 1,5 gachahar bir belgi uchun bit. Biz rus tilining normasi taxminan teng deb taxmin qilamiz1.5har bir belgi uchun bit.
Tilning mutlaq normasiRbarcha belgilar ketma-ketligi teng ehtimolli bo'lishi sharti bilan ko'rib chiqilayotgan tilning bir belgisi orqali uzatilishi mumkin bo'lgan ma'lumotlar bitlarining maksimal soni deb ataladi. Alifbosi quyidagilardan iborat bo'lgan tilning mutlaq normasiLbelgilar, deb hisoblash mumkin
R = log2 L
Alifbosi quyidagilardan iborat bo'lgan rus tili uchun33harflar, tilning mutlaq normasi
Shunday qilib, rus tilining mutlaq normasi haqiqiydan ancha katta ekanligi aniq. Buning ajablanarli joyi yo'q, chunki barcha tabiiy tillarda sezilarli ortiqcha mavjud. Bu bir necha omillarga bog'liq. Birinchidan, alifboning ba'zi harflari xabarlarda boshqalarga qaraganda tez-tez uchraydi. Rus alifbosining belgilari bo'yicha ba'zi statistik ma'lumotlar 2-ma'ruzada keltirilgan, bu erda tilning statistik ma'lumotlari asosida xabarni kriptotahlil qilish jarayoni ko'rib chiqiladi. Ortiqchalikning ikkinchi sababi - so'zlardagi harflarning ba'zi birikmalariga yo'l qo'yilmaydi. Masalan, rus tilida harflar bir qatorda turadigan so'zlar yo'q"c" va "y" yoki "i" va "b". Bundan tashqari, tabiiy tillar shunday yaratilganki, ba'zida so'z yoki iboraning bir qismini bilib, biz etishmayotgan qismni tiklashimiz mumkin. Masalan, salomlashishda
Salom, xayr!
yo'qolgan harflarni osongina tiklashimiz mumkin"R".