2. NUTQNI SINTEZLASH USLUBLARI VA KO’NIKMALARI 2.1. Ma’lumot va taksanomiya, sintezlashning tez va sekin yo’llari To'liq uchdan uchiga TTS modellari belgilar yoki fonema ketma-ketligidan nutq to'lqin shaklini yaratishi mumkin to'g'ridan-to'g'ri, quyidagi afzalliklarga ega: 1) Bu kamroq inson izohi va xususiyatini talab qiladi rivojlantirish (masalan, matn va nutq o'rtasidagi moslashtirish ma'lumotlari); 2) bo‘g‘in va uchi optimallashtirish kaskadli modellarda xatolarning tarqalishini oldini oladi (masalan, Matn tahlili + akustik model +Vokoder); 3) Shuningdek, u o'qitish, ishlab chiqish va joylashtirish xarajatlarini kamaytirishi mumkin.[27]
Biroq, TTS modellarini oxirigacha o'rgatishda katta qiyinchiliklar mavjud, bu asosan matn va nutq to'lqin shakli o'rtasidagi turli xil modalliklar, shuningdek, ular orasidagi katta uzunlikdagi nomuvofiqlik belgi/fonema ketma-ketligi va to‘lqin shakli ketma-ketligi. Masalan, 5 ta uzunlikdagi nutq uchun soniya va taxminan 20 so'z, fonema ketma-ketligining uzunligi atigi 100 ga yaqin, uzunligi esa to'lqin shakli ketma-ketligi 80k (namuna tezligi 16 kHz bo'lsa). To'lqin shakli nuqtalarini qo'yish qiyin xotira chegarasi tufayli butun gapning namunaviy treningga aylanishi. ni qo'lga olish qiyin kontekst tasvirlari, agar faqat oxirigacha trening uchun qisqa audio klip ishlatilsa.[27]
To'liq oxirigacha o'qitishning qiyinligi tufayli, neyron TTS rivojlanishi progressiv bosqichni kuzatib boradi. to'liq oxirigacha modellar tomon jarayon. 4-rasmda ushbu progressiv jarayonning boshlanishi ko'rsatilgan erta statistik parametrik sintezdan [22, 16, 15, 25, 27]. Jarayon to'liq end-to-end modellari odatda quyidagi yangilanishlarni o'z ichiga oladi: 1) Matnni tahlil qilish modulini soddalashtirish va lingvistik xususiyatlar. SPSS da matnni tahlil qilish moduli matn kabi turli funktsiyalarni o'z ichiga oladi normallashtirish, ibora/so'z/bo'g'in segmentatsiyasi, POS-taglash, prosodiyani bashorat qilish, grafema-tofonema konvertatsiyasi (shu jumladan, polifoniyani ajratish). End-to-end modellarida faqat matn belgilarni fonemalarga aylantirish uchun normalizatsiya va grafema-fonemaga o'tkazish saqlanib qoladi; yoki matnni tahlil qilish moduli to'g'ridan-to'g'ri kirish sifatida belgilarni olish orqali o'chiriladi. 2) soddalashtirish akustik xususiyatlar, bu erda MGC, BAP va F0 kabi murakkab akustik xususiyatlar SPSS da qo'llaniladi. mel-spektrogrammalarga soddalashtirilgan. 3) Ikki yoki uchta modulni bitta uchi bilan almashtirish model. Masalan, akustik modellar va vokoderlarni bitta ovozli kodlash modeli bilan almashtirish mumkin.
WaveNet kabi. Shunga ko'ra, biz 4-rasmda progressiv jarayonni tasvirlaymiz va uni shunday tasvirlaymiz ergashadi.[24]
• 1-bosqich. Vang va boshqalar. [25] statistik parametrik sintezda matn tahlilini birlashtirishni o'rganadi va akustik modelni to'g'ridan-to'g'ri akustik xususiyatlarni yaratadigan oxirigacha akustik modelga aylantiring fonema ketma-ketligi va keyin to'lqin shaklini yaratish uchun SPSS da vokoderdan foydalanadi.
• 2-bosqich. WaveNet [24] birinchi boʻlib lingvistik toʻlqinlardan bevosita nutq toʻlqin shaklini yaratish uchun taklif qilingan. akustik model va vokoderning kombinatsiyasi sifatida qaralishi mumkin bo'lgan xususiyatlar. Bunday modellar [22, 25, 15, 23] hali ham lingvistik xususiyatlarni yaratish uchun matnni tahlil qilish modulini talab qiladi.
• 3-bosqich. Takotron [22] lingvistik va akustik xususiyatlarni soddalashtirish uchun taklif qilingan. To'g'ridan-to'g'ri kodlovchi-diqqat-dekoder bilan belgilar/fonemalardan chiziqli spektrogrammalarni bashorat qiladi model va chiziqli-spektrogrammalarni Griffin-Lim [25] yordamida to'lqin shakliga aylantiradi. Quyidagi DeepVoice 3 , Tacotron 2 [22], TransformerTTS va FastSpeech kabi ishlar 1/2 [25, 23] belgilar/fonemalardan mel-spektrogrammalarni bashorat qiladi va keyinchalik neyron vokoderdan foydalanadi. WaveNet [25], WaveRNN [15], WaveGlow [22], FloWaveNet [22] va Parallel kabi To'lqin shaklini yaratish uchun WaveGAN [12].
• 4-bosqich. Ba'zi to'liq to'liq TTS modellari to'g'ridan-to'g'ri matndan to'lqin shakliga sintez qilish uchun ishlab chiqilgan. Char2Wav [15] RNN-ga asoslangan enkoder-diqqat-dekoder modelidan foydalanadi belgilardan akustik xususiyatlarni yarating va to'lqin shaklini yaratish uchun SampleRNN [23] dan foydalanadi. Ikki model to'g'ridan-to'g'ri nutq sintezi uchun birgalikda sozlangan. Xuddi shunday, ClariNet [26] birgalikda to'g'ridan-to'g'ri to'lqin shakli uchun avtoregressiv akustik modelni va avtoregressiv bo'lmagan vokoderni sozlaydi avlod. FastSpeech 2s [22] toʻliq parallel tuzilishga ega boʻlgan matndan nutqni bevosita yaratadi, bu xulosa chiqarishni sezilarli darajada tezlashtiradi. Matnni to'lqin shakliga o'qitishning qiyinchiliklarini engillashtirish uchun, kontekstli tasvirlarni o'rganishga yordam berish uchun yordamchi mel-spektrogramma dekoderidan foydalanadi. fonema ketma-ketligi. EATS [20] deb nomlangan bir vaqtda ish ham to'g'ridan-to'g'ri to'lqin shaklini yaratadi
Belgilar/fonemalar, ular davomiylik interpolyatsiyasi va yumshoq dinamik vaqtni yo'qotishdan foydalanadi oxirigacha moslashtirishni o'rganish uchun. Wave-Tacotron [15] Tacotron-da oqimga asoslangan dekoderni quradi to'g'ridan-to'g'ri to'lqin shaklini yaratish uchun, bu oqim qismida parallel to'lqin shaklini yaratishdan foydalanadi, lekin baribir Tacotron qismida avtoregressiv avlod.
Oldingi bo'limda biz asosiy model komponentlari nuqtai nazaridan neyron TTS bilan tanishdik. Bunda bo'limda biz chegara va qamrab olishni maqsad qilgan neyron TTSdagi ba'zi ilg'or mavzularni ko'rib chiqamiz ko'proq amaliy mahsulot foydalanish. Xususan, TTS ketma-ketlikni yaratish vazifasi uchun odatiy ketma-ketlikdir sekin avtoregressiv avlod bilan, avtoregressiv avlodni qanday tezlashtirish yoki kamaytirish tez nutq sintezi uchun model hajmi issiq tadqiqot mavzusidir . Yaxshi TTS tizimi bo'lishi kerak tabiiy va tushunarli nutqni yaratish va TTSning ko'plab tadqiqot ishlarini yaxshilashga qaratilgan nutq sintezining tushunarliligi va tabiiyligi. Masalan, kam resursli stsenariylarda
TTS modelini o'rgatish uchun ma'lumotlar etarli emas, sintez qilingan nutq ham past tushunarli, ham bo'lishi mumkin tabiiylik. Shu sababli, ko'plab ishlar kam resurs ostida ma'lumotlardan samarali TTS modellarini yaratishga qaratilgan sozlash (3.1-bo'lim). TTS modellari ishlab chiqarilgan joylarda mustahkam muammolarga duchor bo'lganligi sababli nutqda odatda so'zni o'tkazib yuborish va takrorlash muammolari tushunarlilikka ta'sir qiladi, juda ko'p asarlar nutq sintezining mustahkamligini yaxshilashga qaratilgan (3.2-bo'lim). Tabiiylikni yaxshilash uchun juda ko'p ishlar ekspressivlikni yaratish uchun nutq uslubini/prosodiyasini modellashtirish, nazorat qilish va uzatishga qaratilgan