Nitqin tanınması problemi Kompüterli sistemlər inkişaf etdikcə daha da aşkar olunur ki, əgər kompyuterlə bilavasitə iş zamanı insan nitqindən istifadə olunarsa və xüsusən də real zamanda adi səslə maşının idarəsi, həmçinin məlumatın daxil-xaric edilməsi adi insan danışığı şəklində mümkün olarsa, o zaman bu sistemlərin istifadəsi daha da genişlənər.
Nitqin tanınmalarının mövcud texnologiyaları hal-hazırda onlardan geniş istifadə üçün kifayət qədər imkanlara malik deyillər. Lakin tədqiqatların hazırkı mərhələsində başa düşülməni asanlaşdırmaq üçün qısa çoxmənalı sözlərin (prosedurların) istifadəsinin imkanlarının intensiv axtarışı aparılır. Hal-hazırda nitqin tanınması həyatda real tətbiqini yalnız o hallarda tapmışdır ki, nə zaman ki istifadə olunan lüğət 10 işarəyə qədər azaldılmışdır, misal üçün telefon ilə ötürülən verilənlərin (kredit kartlarının nömrələrinin və digər kodların) kompüterlərin bazasındakı sistemlərdə işlənilməsi. Beləliklə cari məsələ - təbii dilin heç olmasa 20 min sözünün tanınması hələlik həll olunmamışdır.
Nitqin müvəffəqiyyətlə tanınması üçün aşağıdakı məsələləri həll etmək lazımdır:
- lüğətin işlənilməsi (fonetik tərkib)
- sintaksisin işlənilməsi
- nitqin qısaldılması (sərt ssenarilərin mümkün istifadəsini daxil etməklə)
- diktorun seçilməsi (yaş, cinsi, ana dili və dialekt daxil olmaqla)
- diktorların məşqi
- mikrofonun xüsusi növünün seçilməsi (mikrofonun yeri və istiqamətləndirilməsi nəzərə alınmaqla)
- sistemin iş şəraiti və səhvlər göstərilməklə nəticənin alınması.
Nitqin tanınmasının mövcud sistemləri sözlərin tanınması üçün bütün mümkün ola bilən məlumatın (hətta artıq məlumatın) yığılmasına əsaslanmışlar. Tədqiqatçılar hesab edirlər ki, dəyişmələrə məruz qalmış siqnalın keyfiyyətinə əsaslanan nitqin nümunəsinin tanınması məsələsinin bu üsulu tanınma üçün kifayət olacaqdır. Lakin hal-hazırda normal nitqin kiçik xəbərlərinin tanınması halında belə müxtəlif real siqnalları aldıqdan sonra arzu olunan nəticə hesab olunan linqvistik simvollara birbaşa transformasiyanın həyata keçirilməsi qeyri-mümkündür. Bunun əvəzinə elə bir proses həyata keçirilir ki, həmin prosesdə birinci addım emal olunan həcmin qısaldılması məqsədilə daxil edilən məlumatın ilkin transformasiyasından ibarət olur. Bu qısaldılma elə aparılır ki, sonradan onun kompüter analizi mümkün ola bilsin. Misal üçün daxil olunan məlumat saniyədə 50000 bitdən 800 bitədək qısaldılır. Sonrakı mərhələ Furye çevrilməsi yolu ilə alınan nitqin spektral təsvirindən ibarətdir. Furye çevirməsinin nəticəsi nəinki məlumatın sıxılmasına imkan verir, eyni zamanda eksperimental fonetika dairəsində intensiv öyrənilən nitqin mühüm aspektlərində diqqətin cəmləşdirilməsinə imkan verir. Spektral təsvir yazılışın eninə-tezlik analizindən istifadə olunması yolu ilə əldə edilir. Nitqin spektral təsviri faydalı olsa da nəzərə almaq lazımdır ki, öyrənilən siqnal çox müxtəlifdir.
Müxtəliflik aşağıdakı səbəblərə görə yaranır:
- insanların səslərinin müxtəlifliyi
- danışanın nitqinin səviyyəsi
- tələffüzdəki variasiyalar
- artikulyatorların (dilin, dodaqların, çənənin, damağın) hərəkətlərinin normal dəyişdirilməsi