O'rtasidagi korrelyatsiyani aks ettiruvchi tarqalish grafigi nutq signalidan olingan va bashorat qilingan formantlar CLUSTERGEN va ANN dan. U erda mavjudligini kuzatish mumkin edi asl shakllantiruvchilar va bashorat qilinganlar o'rtasidagi etarli korrelyatsiya birlar. CLUSTERGEN tomonidan bashorat qilingan formatlar kamroq ko'rinishi mumkin CLUSTERGEN xuddi shunday bashorat qilgani uchun soni ma'lum bir holatdagi kadrlar soni bo'yicha chastotalar. Ushbu maqolada biz neyron matndan nutqqa so'rov o'tkazdik va asosan (1) asosiyga e'tibor
qaratdik
TTS modellari, shu jumladan matn tahlili, akustik modellar, ovozli kodlar va to'liq yakuniy modellar va (2) tez TTS,
kam resursli TTS, mustahkam TTS, ifodali TTS va shu jumladan bir nechta ilg'or mavzular moslashuvchan TTS. Tezkor xulosa sifatida biz TTSning vakili algoritmlarini 18-jadvalda keltiramiz. Sahifa tufayli cheklovlar, biz faqat TTS ning asosiy algoritmlarini ko'rib chiqdik; o'quvchilar TTS bilan bog'liq boshqa hujjatlarga murojaat qilishlari mumkin muammolar va ilovalar, masalan, ovozni o'zgartirish [8], qo'shiq ovozi sintezi [11, 21, 15], gaplashayotgan yuz sintezi [6] va boshqalar. 33 Biz neyron TTS bo'yicha ba'zi kelajakdagi tadqiqot yo'nalishlarini, asosan, ikkita toifada ko'rsatamiz TTSning yakuniy maqsadlari. Yuqori sifatli nutq sintezi TTSning eng muhim maqsadi yuqori sifatli sintez qilishdir nutq. Nutqning sifati idrok etishga ta'sir qiluvchi ko'plab jihatlar
bilan belgilanadi nutq, shu jumladan tushunarlilik, tabiiylik, ekspressivlik, prosodiya,
hissiyot, uslub, mustahkamlik, nazorat qilish qobiliyati va boshqalar. Neyron yondashuvlar sintez sifatini sezilarli darajada yaxshilagan bo'lsa nutq, yanada takomillashtirish uchun hali katta imkoniyatlar mavjud.
• Kuchli generativ modellar. TTS - bu avlod vazifasi, shu jumladan to'lqin shakli va/yoki yaratish kuchli generativ modellar tomonidan yaxshiroq boshqarilishi mumkin bo'lgan akustik xususiyatlar. Ilg'or bo'lsa-da akustik modellarda VAE, GAN, oqim yoki diffuziyaga asoslangan generativ
modellar qabul qilingan; vokoderlar va to'liq yakuniy modellar, yanada kuchli va samarali generativ bo'yicha tadqiqot harakatlari modellar sintezlangan nutq sifatini yanada yaxshilash uchun murojaat qilmoqda.
• Vakillikni yaxshiroq o'rganish. Matn va nutqning yaxshi ifodalanishi asab uchun foydalidir Sintezlangan nutq sifatini oshirishi mumkin bo'lgan TTS modellari. Matn bo'yicha ba'zi dastlabki tadqiqotlar Oldindan o'tkazilgan mashg'ulotlar shuni ko'rsatadiki, matnni yaxshiroq tasvirlash haqiqatan ham nutq prosodiyasini yaxshilashi mumkin. Qanday matn/fonema ketma-ketligi va ayniqsa nutq ketma-ketligi uchun kuchli tasvirlarni o'rganish nazoratsiz/o'z-o'zini nazorat qilish orqali o'rganish va oldindan tayyorlash qiyin va bundan keyin ham arziydi izlanishlar.
• Mustahkam nutq sintezi. Hozirgi TTS modellari so'zlarni o'tkazib yuborish va takrorlash bilan bog'liq muammolarni bartaraf qiladi noto'g'ri e'tibor hizalamalari tufayli yuzaga kelgan, ular hali ham duch kelganda mustahkamlik muammolaridan aziyat chekmoqda o'quv majmuasida yoritilmagan burchak holatlari, masalan,
uzunroq matn uzunligi, turli matn domenlar va boshqalar. TTS modelining turli sohalarga umumlashtirilishini yaxshilash muhim ahamiyatga ega mustahkam sintez.[27]
• Ekspressiv/boshqariladigan/ko‘chiriladigan nutq sintezi. Ekspressivlik, boshqaruvchanlik va TTS modellarining o'tkazuvchanligi yaxshiroq o'zgaruvchan ma'lumotlarni modellashtirishga tayanadi. Mavjud usullar Variatsion modellashtirish uchun mos yozuvlar kodlovchisi yoki aniq prosodiya xususiyatlaridan (masalan, balandlik, davomiylik, energiya)
foydalaning, bu xulosa chiqarishda yaxshi boshqarilishi va o'tkazuvchanligiga ega, ammo azob chekadi. o'rgatish/xulosaning nomuvofiqligidan beri asos-haqiqatga asoslangan nutq yoki prosodiya xususiyatlaridan foydalanilgan Treningda odatda xulosa chiqarish mumkin emas. Murakkab TTS modellari o'zgarishlarni qamrab oladi Sintezlangan nutqda yaxshi ekspressivlikka ega bo'lgan, lekin bajarmaydigan ma'lumotlar nazorat qilish va uzatishda yaxshi, chunki yashirin fazodan namuna olish aniq va aniq bo'lishi mumkin emas har bir prozodiy xususiyatni (masalan, balandlik, uslub) nazorat qilish va uzatish. Qanday qilib yaxshiroq usullarni loyihalash ifodali/boshqariladigan/ko‘chiriladigan nutq sintezi ham jozibador.[23]
• Ko'proq odamga o'xshash nutq sintezi. TTS treningida ishlatiladigan joriy nutq yozuvlari odatda rasmiy o'qish uslublari,
bu erda hech qanday pauza, takrorlash, o'zgaruvchan tezlik, o'zgaruvchan his-tuyg'ular va xatolar ruxsat etiladi. Biroq, tasodifiy yoki so'zlashuv nutqida, odam kamdan-kam hollarda standart kabi gapiradi o'qish. Shuning uchun tasodifiy, hissiy va spontan uslublarni yaxshiroq modellashtirish juda muhimdir sintezlangan nutqning tabiiyligini yaxshilash. Samarali nutq sintezi Biz yuqori sifatli nutqni sintez qila olsak, keyingi eng muhimi
Vazifa - samarali sintez, ya'ni nutq sintezi narxini, shu jumladan xarajatlarni qanday kamaytirish kerak. o'quv ma'lumotlarini to'plash va etiketlash, TTS modellarini o'qitish va ularga xizmat ko'rsatish va boshqalar.
• Ma'lumotlardan tejamkor TTS. Ko'pgina kam resursli tillarda o'quv ma'lumotlarining etishmasligi. Qanday foyda olish kerak kam resursga yordam berish uchun nazoratsiz/yarim nazorat ostida o'rganish va tillararo o'tkazish tillar qiziqarli yo'nalishdir. Masalan, ZeroSpeech Challenge [12] yaxshi hech qanday matn yoki lingvistik holda faqat nutqdan o'rganish usullarini o'rganish tashabbusi bilim. Bundan tashqari, ovozli moslashuvda maqsadli dinamik odatda moslashuv ma'lumotlariga ega bo'lmaydi ma'lumotlardan samarali TTS uchun yana bir dastur stsenariysi.
• Parametrli samarali TTS. Bugungi neyron TTS tizimlari odatda katta neyron tarmoqlardan foydalanadi ilovalarni bloklaydigan yuqori sifatli nutqni sintez qilish uchun o'n millionlab
parametrlar tufayli mobil, IoT va boshqa past-end qurilmalarda cheklangan xotira va quvvat sarfi. Kamroq xotira izlari, quvvat sarfi va ixcham va engil modellarni loyihalash Ushbu dastur stsenariylari uchun kechikish juda muhimdir.
Dostları ilə paylaş: