OCR ortida qanday texnologiya bor?
ABBYY ko'p yillik tadqiqotlar natijalariga asoslanib, IPA tamoyillarini joriy etdi kompyuter dasturi... Optik belgilarni aniqlash tizimi ABBYY FineReader dunyodagi yagona OCR tizimi bo'lib, hujjatlarni qayta ishlashning barcha bosqichlarida yuqoridagi tamoyillarga muvofiq ishlaydi. Ushbu tamoyillar dasturni iloji boricha moslashuvchan va aqlli qiladi, uning ishini odamning belgilarni qanday tan olishiga imkon qadar yaqinlashtiradi. Tanib olishning birinchi bosqichida tizim hujjatni tashkil etuvchi tasvirlarni sahifama-sahifa tahlil qiladi, sahifalar tuzilishini aniqlaydi, matn bloklari va jadvallarni tanlaydi. Bundan tashqari, zamonaviy hujjatlar ko'pincha dizaynning barcha turlarini o'z ichiga oladi: rasmlar, sarlavhalar va altbilgilar, rangli fon yoki fon tasvirlari. Shuning uchun, aniqlangan matnni topish va tanib olishning o'zi kifoya emas, eng boshidanoq ko'rib chiqilayotgan hujjat qanday tuzilganligini aniqlash juda muhimdir: unda bo'limlar va kichik bo'limlar, havolalar va izohlar, jadvallar va grafiklar, jadval mavjudmi. mazmuni, sahifa raqamlari berilganmi yoki yo'qmi va hokazo. Keyin matn bloklarida qatorlar ajratiladi, alohida satrlar so'zlarga, so'zlar belgilarga bo'linadi.
Belgilarni tanlash va ularni tanib olish ham shaklda amalga oshirilishini ta'kidlash muhimdir tarkibiy qismlar yagona protsedura. Bu sizga IPA tamoyillaridan to'liq foydalanish imkonini beradi. Belgilarning tanlangan tasvirlari tasniflagichlar deb ataladigan harflarni aniqlash mexanizmlariga topshiriladi.
ABBYY FineReader klassifikatorlarning quyidagi turlaridan foydalanadi: rastr, xususiyat, kontur, strukturaviy, xususiyat-differensial va struktura-differensial. Rastr va xususiyat klassifikatorlari tasvirni tahlil qiladi va unda qanday belgi tasvirlanganligi haqida bir nechta farazlarni ilgari suradi. Tahlil paytida har bir gipotezaga ma'lum bir ball (vazn deb ataladi) beriladi. Sinov natijalariga ko'ra, biz og'irlik bo'yicha tartiblangan gipotezalar ro'yxatini olamiz (ya'ni, biz aynan shunday belgi bilan ishlayotganimizga ishonch darajasi bo'yicha). Aytishimiz mumkinki, hozirda tizim ko'rib chiqilayotgan belgi qanday ko'rinishini "taxmin qilmoqda".
Shundan so'ng, IPA tamoyillariga muvofiq, ABBYY FineReader ilgari surilgan farazlarni tekshiradi. Bu differentsial xususiyat tasniflagichi yordamida amalga oshiriladi.
Bundan tashqari, shuni ta'kidlash kerakki, ABBYY FineReader 192 ta tanib olish tilini qo'llab-quvvatlaydi. Tanib olish tizimining lug'atlar bilan integratsiyalashuvi dasturga hujjatlarni tahlil qilishda yordam beradi: tan olish aniqroq bo'ladi va hujjatning asosiy tili haqidagi ma'lumotlarni va individual taxminlarni lug'at bilan tekshirishni hisobga olgan holda natijani keyingi tekshirishni soddalashtiradi. Ko'p sonli gipotezalarni batafsil qayta ishlashdan so'ng, dastur qaror qabul qiladi va foydalanuvchiga tan olingan matnni taqdim etadi.
Dostları ilə paylaş: |