3.SNT MODELLARI BILAN TAJRIBALAR VA NUTQNI SINTEZLASHNI BAHOLASH 3.1. SNT unli va undosh tovushlar uchun alohida tarmoq va turli arxitekturalarda tajribalar CLUSTERGEN - bu taxmin qilish uchun CART modellaridan foydalanadigan SPS dvigatelidir berilgan matndan akustik xususiyatlar. ning ramkasi bo'lsa-da CLUSTERGEN moslashuvchan, u odatda Mel-cepstral koeffitsientlaridan foydalanadi Mel-Log spektral yaqinlashish (MLSA) texnikasidan olingan. Ushbu ishda CLUSTERGEN formantlarni bashorat qilish uchun moslashtirilgan va matndan tarmoqli kengligi. CLUSTERGEN ning standart qurish jarayoni formatlar va tarmoqli kengligidan foydalangan holda RMS ovozini yaratish uchun ishlatilgan. CART daraxtlari ma'lumotlarni ajratadigan savollarni topish orqali qurilgan klasterdagi nopoklikni minimallashtirish uchun. Har bir barg tugunida o'rtacha vektor birliklar klasterining ifodasi sifatida olinadi.
Formantlardan nutqni sintez qilish uchun biz ikki xil strategiyani moslashtirdik. Birinchi usul an'anaviy sintez shakli bo'lib, unda formantlar chiziqli bashorat koeffitsientlari va nutqqa aylantiriladi. manba-filtr modeli yordamida sintezlanadi. Ikkinchi usul – bu Formant bo'shliqdan sepstral koeffitsient bo'shlig'iga yana bir transformatsiyani amalga oshiradi va nutq MLSA sintezi yordamida sintezlanadi. texnikasi. Formantlarni olish uchun ESPS [7] asboblar to'plami ishlatilgan. LPC sintez tenglamasi bashorat polinomidan nutq yaratish uchun ishlatiladi. Formant sintezidagi nazorat parametrlari tez formatni taqlid qilish uchun odatda har 5 ms yangilanadi o'tishlar va qisqa portlashlar [12]. Biroq, LPC parametrlari nutqni ishlab chiqarish jarayonida juda uzoq vaqt ushlab turilishi idrokni beradi shovqinli sifatli. Bunga yo'l qo'ymaslik uchun lpc parametrlari interpolyatsiya qilinadi har bir namuna uchun. LPC sintezatorining barqarorligini ta'minlash uchun bashorat qiluvchi koeffitsientlar interpolyatsiyadan oldin log maydoni koeffitsientlariga aylantiriladi [14].
Nutqning shovqinli sifatini, aralash qo'zg'alishni yanada kamaytirish uchun ishlatilgan. Ushbu qo'zg'alish usuli zarba va turli xil aralashmalardan foydalanadi 5 chastota diapazonidagi shovqin, bu erda nisbiy impuls va shovqin aralashmalari beshta chastotali ovoz balandligidan kelib chiqadi. har bir kadr uchun chastota diapazonlari [15]. Differentsial glottal puls uchun LF modeli glottal manba signalini va uni modellashtirish uchun ishlatilgan lablar nurlanishi [13]. Manba aralash qo'zg'alish yordamida yaratilgan modeli [15]. Hujjatda aytilganidek, kuchli tomonlar va f0 talab qilinadi qoldiq hosil qilish uchun. Radiatsiya xarakteristikasi umumiy spektrning asta-sekin o'sishini qo'shadi [12]. Biroq parametrlari LF modeli hukmning davomiyligi davomida doimiy ravishda saqlanib qoldi va shuningdek, ma'ruzachilar bo'ylab. Formantlar va tarmoqli kengligi bo'lganda sintez uchun ishlatiladi, agar tegishli glottal roll-off ta'minlanmagan bo'lsa, qo'ng'iroq shovqini qabul qilinadi. Ushbu aralash qo'zg'alish chiqishini engillashtirish uchun glottal manbani modellashtiruvchi filtrdan o'tkazildi. LF modeli tabaqalashtirilgan glottal puls uchun glottal manbani modellashtirish uchun foydalanilgan signal va lab nurlanishi. Ikkinchi usul - formant bo'shlig'idan sepstral koeffitsient bo'shlig'iga boshqa transformatsiyani amalga oshirishdir. Bunday transformatsiya boshqa sun'iy neyron tarmog'idan foydalanish orqali amalga oshiriladi (ko'rsatilgan ANN-2). Ushbu ANN-2 ga kirish formatlari va tarmoqli kengligi hisoblanadi 3 yoki 4-bo'limda bashorat qilinganidek va chiqish bu ramkaga mos keladigan Mel-cepstral koeffitsientlari. Ushbu tarmoqni ko'rish mumkin edi formantlarning tsepstral koeffitsientlarga nochiziqli transformatsiyasi sifatida va xatolarni tuzatish tarmog'i sifatida ham ko'rish mumkin. Har qandayning ta'siri Transformatsiya jarayonida formantlarni bashorat qilishdagi xatolikni kamaytirish mumkin. Yaratilgan Mel-kepstral koeffitsientlari qo'llaniladi. MLSA sintez texnikasi yordamida nutqni sintez qilish. Qilish uchun ob'ektiv tahlil o'tkazish, Mel-kepstral buzilish hisoblangan Ikkinchi usuldan namunalar uchun va u topildi. Formant traektoriyalarining vizual tasviri birinchi, ikkinchi va uchinchi formatant chastotalari ko'rsatilgan.[24]
Gregson so'zi uchun. Formantlar o'rtasida taqqoslash amalga oshiriladi dastlabki nutq signalidan olingan, dan bashorat qilingan formatantlar CLUSTERGEN tomonidan bashorat qilingan ANN modellari va formatlari. Vaholanki ANN modellari ham, umuman CLUSTERGEN ham qila oladi kerakli traektoriyalarni ishlab chiqaradi, ANN modellari ishlab chiqaradigan ko'rinadi CLUSTERGEN ga qaraganda yumshoqroq traektoriyalar, bu bilan bog'liq bo'lishi mumkin ANNni umumlashtirish qobiliyatiga.