Sun’iy neyron tarmoqlarida nutqni sintezlash modellari tahlili mavzusida bitiruv malakaviy ishi

-rasm. Neyron TTS modellarining evolutsiyasi

Yüklə 1,67 Mb.

səhifə	9/23
tarix	24.03.2023
ölçüsü	1,67 Mb.
	#89648

1 ... 5 6 7 8 9 10 11 12 ... 23

Baxodirov Abduraxmon BMI

8-rasm. Neyron TTS modellarining evolutsiyasi
Matnni nutqqa sintez qilish tizimlari odatda bulutli serverlarda yoki o'rnatilgan qurilmalarda joylashtiriladi tez sintez tezligini talab qiladi. Biroq, erta neyron TTS modellari odatda avtoregressiv melspektrogramma va to'lqin shaklini yaratishni qabul qiladi, ular uzoq nutq ketma-ketligini hisobga olgan holda juda sekindir. (masalan, 1 soniyali nutq odatda 500 mel-spetrogrammaga ega, agar hop hajmi 10ms va 24k to'lqin shakli bo'lsa agar namuna olish tezligi 24 kHz bo'lsa ball). Ushbu muammoni hal qilish uchun turli xil texnikalar qo'llanilgan TTS modellari haqida xulosa chiqarishni tezlashtirish, shu jumladan 1) avtoregressiv bo'lmagan avlodni hosil qiluvchi modellari hisoblanadi.
Parallel yaratish 8-jadvalda tipik modellashtirish paradigmalari, mos keladigan TTS jamlangan modellar, o'qitish va xulosa chiqarishda vaqt murakkabligi. Ko'rinib turibdiki, RNN asosidagi avtoregressiv modellardan foydalanadigan TTS modellari [22, 23, 25, 26] o'qitishda ham, xulosa chiqarishda ham sekin.
O (N) hisoblash, bu erda N - ketma-ketlik uzunligi. Sekin mashg'ulot vaqtini keltirib chiqarmaslik uchun RNN tuzilishi, DeepVoice 3 [27] va TransformerTTS [22] CNN yoki o'z-o'ziga e'tiborga asoslangan holda foydalanadi. parallel treningni qo'llab-quvvatlay oladigan, ammo avtoregressiv xulosani talab qiladigan tuzilma. Tezlashtirish uchun xulosa, FastSpeech 1/2 [24, 25] o'z-o'ziga e'tiborni jalb qiladigan oldinga uzatuvchi transformatorni loyihalashtirdi parallel o'qitish va xulosa chiqarish uchun tuzilma, bu erda hisoblash O (1) ga qisqartiriladi. Ko'pchilik Mel-spektrogramma va to'lqin shakllarini yaratish uchun GAN-ga asoslangan modellar [1, 21, 12, 14] avtoregressiv bo'lmagan, o'qitish va xulosa chiqarishda O (1) hisoblash bilan. Parallel WaveNet [25] va ClariNet [26] teskari avtoregressiv oqimdan [13] foydalanadi, bu parallel xulosa chiqarish imkonini beradi, lekin talab qiladi. parallel o'qitish uchun o'qituvchi distillash. WaveGlow [24] va FloWaveNet [21] generativdan foydalanadi parallel o'qitish va xulosa chiqarish uchun oqim. Biroq, ular odatda bir nechta oqim iteratsiyasini yig'ishlari kerak T ma'lumotlar va oldingi taqsimotlar o'rtasidagi xaritalash sifatini ta'minlash. Oqimga asoslanganga o'xshaydi modellar, diffuziyaga asoslangan modellar [6, 26, 21, 20, 16] ham bir nechta diffuziya bosqichlarini talab qiladi. to'g'ridan-to'g'ri va teskari jarayon, bu hisoblashni oshiradi.
Engil model Avtoregressiv bo'lmagan avlod xulosa chiqarish tezligini oshirish uchun parallel hisoblashdan to'liq foydalanishi mumkin bo'lsa-da, model parametrlari soni va umumiy hisoblash narxi unchalik katta emas. kamayadi, bu esa mobil telefonlar yoki o'rnatilgan qurilmalarga o'rnatilgandan beri uni sekinlashtiradi bu qurilmalarda parallel hisoblash imkoniyatlari yetarli darajada kuchli emas. Shuning uchun, biz kerak. Hatto foydalanishda ham xulosa chiqarish tezligini oshirish uchun kamroq hisoblash xarajati bilan engil va samarali modellarni loyihalash avtoregressiv avlod. Engil modellarni loyihalash uchun keng qo'llaniladigan ba'zi texnikalar kiradi kesish, kvantlash, bilimlarni distillash [11] va neyron arxitekturasini qidirish [20, 26] va boshqalar.
WaveRNN [15] dual softmax, vaznni kesish, kichik o'lchamlarni tezlikni bashorat qilish kabi usullardan foydalanadi. yuqoriga xulosa qilish. LightSpeech [20] engil vazn topish uchun neyron arxitektura qidiruvidan [27, 21] foydalanadi. arxitekturalari ovozni saqlab qolgan holda FastSpeech 2 xulosasini 6,5 marta tezlashtirish uchun sifat. SqueezeWave [13] vaqtinchalik uzunlikni qisqartirish va o'rnini bosish uchun to'lqin shaklini o'zgartirishdan foydalanadi. hisoblash xarajatlarini kamaytirish uchun chuqur ajraladigan konvolyutsiyaga ega 1D konvolyutsiyasi shunga o'xshash ovoz sifati. Kanagava va Ijima [15] LPCNet ning model parametrlarini yordamida siqadilar tensorning parchalanishi. Xsu va Li [12] kamaytirish uchun kuchli siqilgan oqimga asoslangan modelni taklif qilishadi hisoblash resurslari va ovoz sifatini saqlab qolish uchun WaveNet-ga asoslangan post-filtr. DeviceTTS [12] bir nechta kadrlarni bashorat qilish uchun DFSMN [4] model tuzilmasi va aralash o'lchamli dekoderdan foydalanadi. xulosani tezlashtirish uchun bir dekodlash bosqichida. LVCNet [9] uchun joylashuv o'zgaruvchan konvolyutsiyasini qabul qiladi turli xil to'lqin shakli intervallari, bu erda konvolyutsiya koeffitsientlari mel-spektrogrammalardan bashorat qilinadi.
Ovoz sifatini yomonlashtirmasdan Parallel WaveGAN vokoderini 4x tezlashtiradi. Vang va boshqalar. [9] mel-spektrogramma yaratish uchun yarim avtoregressiv rejimni taklif qiladi, bunda melspektrogrammalar individual fonema va avtoregressiv bo'lmaganlar uchun avtoregressiv rejimda hosil bo'ladi. turli fonemalar uchun rejim. LPCNet [13] chiziqli bashorat yordamida raqamli signalni qayta ishlashni neyron tarmoqlar bilan birlashtiradi. keyingi to'lqin shaklini hisoblash uchun koeffitsientlar va qoldiq qiymatni bashorat qilish uchun engil model, avtoregressiv to'lqin shaklini yaratishni tezlashtirishi mumkin. Boshqa texnika – bu Vokoderlarning xulosasini tezlashtirish uchun to'lqin shaklini ajratuvchi subbandli modellashtirish keng qo'llaniladi tez xulosa chiqarish uchun bir nechta subbandlarga. Odatdagi modellarga DurIAN [15], ko'p diapazonli MelGAN [26], pastki tarmoqli WaveNet [25] va ko'p tarmoqli LPCNet [13, 6] kiradi. Bunched LPCNet namunalarni yig'ish va bitlarni yig'ish bilan LPCNet ning hisoblash murakkabligini pasaytiradi, natijaga erishadi. 2x dan ortiq tezlashtirish. Streaming TTS [ 24, 26, 22] nutqni bir necha marta sintez qiladi. kiritish tokenlari butun kiritish jumlasini kutmasdan keladi, bu ham tezlashishi mumkin xulosa chiqarish. FFTNet [14] Tez Furye Transformatsiyasini (FFT) taqlid qilish uchun oddiy arxitekturadan foydalanadi. real vaqtda audio namunalarini yaratishi mumkin. Okamoto va boshqalar. [25] shovqin bilan FFTNetni yanada yaxshilaydi shakllantirish va subband texnikasi, kichik model hajmini saqlab, ovoz sifatini yaxshilash. Popov va boshqalar. [27] to'lqin shaklining ba'zi qismlarini sintez qilish uchun ramkaning bo'linishi va o'zaro faoliyat yo'qolishini taklif qiladi. parallel va keyin past darajadagi tez sintezni ta'minlash uchun sintezlangan to'lqin shakllarini birlashtiring qurilmalar. Kang va boshqalar. [15] tarmoqni qisqartirish va ishonchlilikni oshirish bilan DCTTS [22] ni tezlashtiradi singl bilan real vaqtda nutqni sintez qila oladigan guruhli avtomagistralni faollashtirish kabi texnikalar CPU ipi. O'z-o'zini nazorat qilish treningi. Juftlangan matn va nutq maʼlumotlarini toʻplash qiyin boʻlsa-da, ulanmagan nutq va matn ma'lumotlarini (ayniqsa, matnli ma'lumotlarni) olish nisbatan oson. Tilni tushunish yoki nutqni rivojlantirish uchun o'z-o'zini nazorat qiladigan tayyorgarlik usullaridan foydalanish mumkin imkoniyatlar [12, 24, 22, 11]. Masalan, TTS-dagi matn kodlovchisi yordamida yaxshilanishi mumkin oldindan o'qitilgan BERT modellari va TTSdagi nutq dekoderini oldindan o'rgatish mumkin. avtoregressiv mel-spektrogramma bashorati [22] yoki ovozli konvertatsiya vazifasi [14] bilan birgalikda o'rgatilgan.
Bundan tashqari, nutqni fonema yoki belgiga o'xshash diskret belgilar ketma-ketligiga kvantlash mumkin. ketma-ketlik [22]. Shunday qilib, kvantlangan diskret tokenlar va nutqni psevdo deb hisoblash mumkin TTS modelini oldindan oʻrgatish uchun ulangan maʼlumotlar, soʻngra bir nechta haqiqiy bogʻlangan matn va nutqda sozlanadi. ma’lumotlar [21, 22, 26].
• O'zaro til o'tkazish. Juftlangan matn va nutq maʼlumotlari resurslari kam tillarda kam boʻlsa-da, u boy resursli tillarda ko'p. Inson tillari o'xshash ovoz organlariga ega bo'lgani uchun, talaffuzlar [21] va semantik tuzilmalar [24], TTS modellarini boy manbalarda oldindan o'rgatish tillar kam resursli tillarda matn va nutq oʻrtasidagi xaritalashda yordam berishi mumkin [23, 26, 12, 22, 11, 24, 25]. Odatda, boy va kam resursli tillar o'rtasida turli fonema to'plamlari mavjud. Shunday qilib, Chen va boshqalar. [13] o'rtasidagi o'rnatish xaritasini taklif qiladi turli tillardagi fonemalar to‘plami va LRSpeech [13] oldindan o‘rgatilgan fonemani bekor qiladi.

Yüklə 1,67 Mb.

Dostları ilə paylaş:

1 ... 5 6 7 8 9 10 11 12 ... 23