II INTERNATIONAL SCIENTIFIC CONFERENCE OF YOUNG RESEARCHERS
574
Qafqaz University
18-19 April 2014, Baku, Azerbaijan
Yazını tanıma yazının növünə görə 3 əsas qrupa ayrılır: çap hərfləri ilə yazılmış yazını tanıma, əllə yazılmış çap
hərflərini tanıma, əlyazmanı tanıma.
Əlyazmanın emalı 2 hissədən ibarətdir: normallaşdırma və təsvir. Emalın normallaşdırma hissəsində sözlərlə,
simvollarla heç bir əlaqəsi olmayan məlumatın, küylərin, xətaların silinməsi və ya düzəliş edilməsi aparılır. Qırılmaların
axtarılması nöqsanların və küylərin aradan qaldırılması prosesində çox vacib rol oynayır. Əlyazmanı tanıma sistemində
seqmentləmə zamanı ilk olaraq, yazılmış mətn sətirlərə ayrılmalıdır. İki sətir arasında sərhədi tapmaq üçün ilk olaraq üfüqi
ox üzrə piksellərin sıxlıq histoqramı alınır. Histoqram hamarlandıqdan sonra təqribi olaraq hər sətir üçün əsas xətt tapılır.
Yazıdakı sətirlər tapıldıqdan sonra, hər sətrin daxilində sözlər axtarılır. Sözlərin axtarılması çox sadədir: sətir üzrə soldan
sağa boşluqlar axtarılır və bu boşluqlar arasında olan təsvir söz kimi ehtimal edilir. Burada ayrılan hissələr tam olaraq sözü
deyil, onun hansısa hissəsini təşkil edə bilər. Bunu aradan qaldırmaq üçün, sətirlərdən sözləri aradakı boşluqlara əsasən
ayırdıqdan sonra, bütün sətirdəki sözlər arasındakı boşluqların orta qiyməti hesablanır və əvvəl tapdığımız boşluqlar bu
qiymətdən kiçikdirsə, onlar birləşdirilir.
Emalın təsvir hissəsində əlyazmadakı məlumatlardan tanıma sistemi üçün lazımı məlumatın alınması baş verir.
Hərflərdə çıxıntının olması informativ məlumat kimi istifadə oluna bilər. Çıxıntıdan istifadə etməklə tanıma zamanı sözün
axtarış süzgəci daha çox daralmış olur. Çıxıntılardan əlavə hərfin üzərində olan diakritik işarələrdən də informativ məlumat
kimi istifadə etmək olar. Bu əlamətin istifadə edilməsi axtarılan sözün daha tez tapılmasına gətirilir.
Əlyazmanı tanıma sistemində, Azərbaycan dilində latın qrafikası ilə yazılmış hər hərf çıxıntılara görə 4 sinfə bölünür:
heç bir çıxıntısı olmayan ( N sinfi), yalnız yuxarı çıxıntısı olan ( A sinfi), həm yuxarı, həm aşağı çıxıntısı olan ( B sinfi) və
nəhayət, yalnız aşağı çıxıntısı olan ( D sinfi).
Müasir Süni Neyron Şəbəkələr (bundan sonra SNŞ) özlərində insan beyni üçün xarakterik olan aşağıdakı xüsusiyyətləri
cəmləşdirir:
-Öyrənmə. Hər hansı NŞ modeli əsasında şəbəkə yaradıb və öyrənmə alqoritmini yerinə yetirərək, şəbəkəni hər hansı
məsələni həll etmək üçün öyrətmək mümkündür.
-Ümumiləşdirmə. Öyrənmədən sonra şəbəkənin nəzərə çarpmayan dərəcədə dəyişmiş giriş siqnalları ayırmamasına rast
gəlinir. Bu xüsusiyyət tanıma sistemlərində çox vacib rol oynayaraq, tanınan obyektlərin küylü və təhrif olunmasına
baxmayaraq, düzgün tanınmasına şərait yaradır.
-Abstraktlama. SNŞ-lərdə giriş siqnallarının xarakterizə etdiyi obyektin xassəsini götürmək xüsusiyyəti var. Misal
olaraq, şəbəkə hər hansı bir hərfin müxtəlif nümunələrə əsasən öyrədilməsinə baxmayaraq, SNŞ tanıma zamanı həmin
hərfin digər variantlarda olan təsvirlərini də düzgün tanıyır.
Azərbaycan dilində əlyazma mətnlərinin tanınması üçün bizim tərəfdən yaradılan sistem çərçivəsində əlifba hərflərinin
analizi üçün daha effektiv, informativ işlər aparılır. Tanınma sistemində istifadə edilə bilən üç qrup əlamət müəyyən
olunmuşdur. Struktur və qeyri- struktur əlamətlərini istifadə edən üsullar özlərini daha effektiv və keyfiyyətli göstərir.
Beləliklə, bir neçə əlamətdən istifadə edən üsula iki əlamət qrupunun kombinasiyası kimi baxıla bilər.
Dostları ilə paylaş: |