Sun’iy neyron tarmoqlarida nutqni sintezlash modellari tahlili mavzusida bitiruv malakaviy ishi


-rasm. Qattiq TTS uchun usullarni toifalarga ajratish



Yüklə 1,67 Mb.
səhifə11/23
tarix24.03.2023
ölçüsü1,67 Mb.
#89648
1   ...   7   8   9   10   11   12   13   14   ...   23
Baxodirov Abduraxmon BMI

9-rasm. Qattiq TTS uchun usullarni toifalarga ajratish
Avtoregressiv akustik modellarda so'zlarni o'tkazib yuborish/takrorlash va e'tiborni buzish bilan bog'liq ko'plab muammolar mavjud. enkoder-dekoder e'tiborida o'rganilgan noto'g'ri diqqat hizalamalari tufayli yuzaga kelgan. Buni engillashtirish uchun muammosi, matn (belgilar/fonemalar) ketma-ketligi va melspektrogramma ketma-ketligi orasidagi tekislashning ba'zi xususiyatlari ko'rib chiqiladi [10]: 1) Lokal: bitta belgi/fonema tokenini tekislash mumkin bir yoki bir nechta ketma-ket mel-spektrogramma ramkalariga, bitta mel-spektrogramma ramkasi esa faqat loyqa e'tibor va e'tiborni chetlab o'tishi mumkin bo'lgan bitta belgi/fonema belgisiga mos kelishi mumkin qulash; 2) Monotonik: agar A belgi B belgisidan orqada bo'lsa, mel-spektrogramma mos keladi to A ham so'zlarni takrorlashdan qochishi mumkin bo'lgan B ga mos keladiganidan orqada; 3) To'liq: har biri belgi/fonema belgisi kamida bitta mel-spektrogramma ramkasi bilan qoplangan bo'lishi kerak, bu esa oldini olishi mumkin so'zni o'tkazib yuborish. Biz diqqatni kuchaytirish usullarini (10-jadvaldan) ko'ra tahlil qilamiz ular yuqoridagi uchta xususiyatni qondiradi va ularni 11-jadvalda sanab o'tamiz. Biz bu usullarni quyidagicha tasvirlaymiz ergashadi.
• Kontentga asoslangan e'tibor. TTSda qabul qilingan dastlabki diqqat mexanizmlari (masalan, Tacotron [22]) mazmunga asoslangan [14], bunda diqqat taqsimoti moslik darajasi bilan belgilanadi kodlovchi va dekoderdan yashirin tasvirlar o'rtasida. Kontentga asoslangan e'tibor neyron mashina tarjimasi [14, 27] kabi vazifalar uchun mos keladi, bu erda ular orasidagi tekislashlar manba va maqsadli leksemalar sof asosli semantik ma’no (mazmun)dir. Biroq, vazifalar uchun avtomatik nutqni aniqlash [11, 9, 13] va matndan nutqni sintez qilish [12] kabi, hizalamalar matn va nutq o'rtasida o'ziga xos xususiyatlar mavjud. Masalan, TTSda [10], diqqat hizalamalar mahalliy, monoton va to'liq bo'lishi kerak. Shuning uchun, ilg'or diqqat mexanizmlari ushbu xususiyatlardan yaxshiroq foydalanish uchun mo'ljallangan bo'lishi kerak.
• Joyga asoslangan e'tibor. Matn va nutq o'rtasidagi moslashuvni hisobga olgan holda bog'liq pozitsion ma'lumotlardan foydalanish uchun ularning pozitsiyalari, joylashuvga asoslangan e'tibor [26, 11] taklif etiladi. tekislash uchun. Char2Wav [15], VoiceLoop [23] va MelNet [11] kabi bir nechta TTS modellari
joylashuvga asoslangan e'tiborni qabul qiling umumlashtirganimizdek, joylashuvga asoslangan e'tibor mumkin to'g'ri ishlov berilsa, monotonlik xususiyatini ta'minlang.
• Kontent/joylashuvga asoslangan gibrid e'tibor. Tarkib va ​​joylashuvga asoslangan afzalliklarini birlashtirish e'tibor, Chorowski va boshqalar. [11], Shen va boshqalar. [13] joylashuvga sezgir diqqatni joriy qilish: qachon joriy e'tiborni tekislashni hisoblashda oldingi diqqatni tekislash qo'llaniladi. Shu tarzda, shu ravishda, shunday qilib, monotonik hizalama tufayli e'tibor yanada barqaror bo'ladi.
• Monotonik diqqat. Monoton e'tibor uchun [2] diqqat pozitsiyasi monoton ravishda ortib bormoqda, bu ham matn va o'rtasidagi tekislashdan oldingisidan foydalanadi nutq monotonikdir. Shunday qilib, u o'tkazib yuborish va takrorlanadigan muammolarni oldini oladi. Biroq, yuqoridagi monoton e'tiborda to'liqlik xususiyati kafolatlanmaydi. Shuning uchun, U va boshqalar. [1] bosqichma-bosqich monotonik diqqatni taklif qiladi, bunda har bir dekodlash bosqichida diqqatni tekislash pozitsiyasi ko'pi bilan bir qadam oldinga siljiydi va hech qanday kiritish blokini o'tkazib yuborishga ruxsat etilmaydi.
• Oyna yoki diagonaldan tashqari jarima. Diqqatning tekislanishi monoton va diagonal bo'lgani uchun, Chorowski va boshqalar. [5], Tachibana va boshqalar. [12], Chjan va boshq. [8], Ping va boshqalar. [27], Chen va boshqalar. [3] manba ketma-ketligiga e'tiborni oyna to'plamiga cheklashni taklif qiling. Shu tarzda, o'rganishning moslashuvchanligi va qiyinligi kamayadi. Chen va boshqalar. [3] diagonaldan tashqari uchun jarima yo'qotishdan foydalaning Diqqat og'irliklari, tarmoqli niqobni qurish va diqqatni tortishni rag'batlantirish orqali diagonal bandda taqsimlanadi.
• Enkoder-dekoder ulanishini kuchaytirish. Nutq qo'shni ramkalar o'rtasida ko'proq korrelyatsiyaga ega bo'lgani uchun, dekoderning o'zi keyingi kadrni bashorat qilish uchun etarli ma'lumotni o'z ichiga oladi va shuning uchun uni e'tiborsiz qoldiradi kodlovchidan matnli ma'lumot. Shuning uchun, ba'zi ishlar o'rtasidagi aloqani kuchaytirishni taklif qiladi kodlovchi va dekoder va shu bilan diqqatni moslashtirishni yaxshilashi mumkin. Vang va boshqalar. [3], Shen va boshqalar. [19] har birida bir-biriga oʻxshamaydigan bir nechta chiqish kadrlarini yaratuvchi koʻp freymli bashoratdan foydalaning dekoder bosqichi. Shu tarzda, ketma-ket kadrlarni bashorat qilish uchun dekoder vositadan foydalanishga majbur bo'ladi kodlovchi tomondan ma'lumot, bu esa tekislashni o'rganishni yaxshilashi mumkin. Boshqa ishlar ham dekoder [3] oldidan prenet-da katta tushirishdan yoki kichik yashirin o'lchamdan foydalaning. bir darbogaz sifatida prenet [22], qaysi oddiygina oldingi nutq ramka qachon nusxa ko'chirish oldini olish mumkin hozirgi nutq ramkasini bashorat qilish. Dekoder kodlovchi tomondan ko'proq ma'lumot oladi, bu hizalanishni o'rganishga foyda keltiradi. Ping va boshqalar. [27], Chen va boshqalar. [10] oshirishni taklif qiladi manba va maqsadli ketma-ketliklar o'rtasidagi pozitsion ma'lumotlarning bog'lanishi, bu esa foyda keltiradi diqqatni uyg'unlashtirishni o'rganish. Liu va boshqalar. [10] CTC [10] asosidagi ASR dan tsiklni yo'qotish sifatida ishlating yaratilgan mel-spektrogrammalarni matnli ma'lumotlarni o'z ichiga olishini rag'batlantirish diqqatni yaxshiroq moslashtirish uchun kodlovchi-dekoder ulanishi.
• Pozitsion e'tibor. Ba'zi avtoregressiv bo'lmagan avlod modellari [26, 24] leverage pozitsiyasi ma'lumotni kodlovchidan kalit va qiymatga qatnashish uchun so'rov sifatida, buning boshqa usuli parallel ishlab chiqarish uchun kodlovchi va dekoder o'rtasidagi aloqani o'rnatish.


Xulosa
Nutqni sintezlash uslublari Belgilar/fonemalar, ular davomiylik interpolyatsiyasi va yumshoq dinamik vaqtni yo'qotishdan foydalanadi oxirigacha moslashtirishni o'rganish uchun. Wave-Tacotron Tacotron-da oqimga asoslangan dekoderni quradi to'g'ridan-to'g'ri to'lqin shaklini yaratish uchun, bu oqim qismida parallel to'lqin shaklini yaratishdan foydalanadi, lekin baribir Tacotron qismida avtoregressiv avlod. Oldingi bo'limda biz asosiy model komponentlari nuqtai nazaridan neyron TTS bilan tanishdik. Bunda bo'limda biz chegara va qamrab olishni maqsad qilgan neyron TTSdagi ba'zi ilg'or mavzularni ko'rib chiqamiz ko'proq amaliy mahsulot foydalanish. Xususan, TTS ketma-ketlikni yaratish vazifasi uchun odatiy ketma-ketlikdir sekin avtoregressiv avlod bilan, avtoregressiv avlodni qanday tezlashtirish yoki kamaytirish tez nutq sintezi uchun model hajmi issiq tadqiqot mavzusidir . Yaxshi TTS tizimi bo'lishi kerak tabiiy va tushunarli nutqni yaratish va TTSning ko'plab tadqiqot ishlarini yaxshilashga qaratilgan nutq sintezining tushunarliligi va tabiiyligi. Masalan, kam resursli stsenariylarda TTS modelini o'rgatish uchun ma'lumotlar etarli emas, sintez qilingan nutq ham past tushunarli, ham bo'lishi mumkin tabiiylik. Shu sababli, ko'plab ishlar kam resurs ostida ma'lumotlardan samarali TTS modellarini yaratishga qaratilgan.



Yüklə 1,67 Mb.

Dostları ilə paylaş:
1   ...   7   8   9   10   11   12   13   14   ...   23




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin