7-rasm. Akustik model va ularning qo’llanilishi. bir nechta mulohazalar: 1) kiritish sifatida ko'proq kontekst ma'lumotlarini olish; 2) korrelyatsiyani modellashtirish chiqish ramkalari o'rtasida; 3) bashorat qilishning haddan tashqari silliqlash muammosiga qarshi yaxshiroq kurashish [25], chunki lingvistik xususiyatlardan akustik xususiyatlargacha xaritalash bittadan ko'p. Biz ba'zi ishlarni qisqacha ko'rib chiqamiz quyidagicha. HMM [16] Yoshimura va boshqalarda nutq parametrlarini yaratish uchun foydalaniladi. [16], Tokuda va boshqalar. [16], bu erda HMM ning kuzatish vektorlari melcepstral koeffitsientlar (MCC) va F0 kabi spektral parametr vektorlaridan iborat. Oldingi konkatenativ nutq sintezi bilan solishtirganda, HMM asosidagi parametrik sintez ma'ruzachi identifikatorini, his-tuyg'ularini va nutqini o'zgartirishda ancha moslashuvchan. uslublar [26]. O'quvchilar Zen [22], Zen va boshqalarga murojaat qilishlari mumkin, Tokuda va boshqalar ba'zi tahlillar uchun
HMM asosidagi SPSS ning afzalliklari va kamchiliklari haqida. HMM-ga asoslangan SPSS ning asosiy kamchiliklaridan biri sintezlangan nutqning sifati yetarli darajada yaxshi emasligi [25, 27], asosan, ikkita sabablari: 1) akustik modellarning aniqligi yaxshi emas va bashorat qilingan akustik xususiyatlar haddan tashqari silliq va tafsilotlarning yo'qligi va 2) ovoz kodlash texnikasi etarlicha yaxshi emas. Birinchi sabab asosan HMMda modellashtirish qobiliyatining yo'qligi bilan bog'liq. Shunday qilib, DNN-ga asoslangan akustik modellar [26] HMM asosidagi modellarning sintezlangan sifatini yaxshilaydigan SPSS da taklif qilingan. Keyinchalik, tartibda
LSTM-ga asoslangan takroriy nutqda uzoq vaqt davomidagi kontekstual effektni yaxshiroq modellashtirish uchun neyron tarmoqlari [21] kontekstga bog'liqlikni yaxshiroq modellashtirish uchun foydalaniladi. Rivojlanish sifatida chuqur o'rganish uchun CBHG [21] kabi ba'zi ilg'or tarmoq tuzilmalari yaxshiroq foydalanish uchun ishlatiladi akustik xususiyatlarni bashorat qilish [21]. VoiceLoop [23] fonologik deb nomlangan ishchi xotirani qabul qiladi fonema ketma-ketligidan akustik xususiyatlarni (masalan, F0, MGC, BAP) yaratish uchun tsiklni yarating va keyin WORLD [23] bu akustik xususiyatlardan to'lqin shaklini sintez qilish uchun vokoder. Yang va boshqalar. [23] leverage GAN [23] akustik xususiyatlarni yaratish sifatini yaxshilash uchun. Vang va boshqalar. [15] ko'proq o'rganing to'g'ridan-to'g'ri e'tiborga asoslangan takrorlanuvchi ketma-ketlikni o'zgartiruvchi modeldan foydalanadigan uchdan-end usul fonema ketma-ketligidan akustik xususiyatlarni hosil qiladi, bu esa kvadratma-kadr tekislashdan qochishi mumkin.
Xulosa Hozirda ANNni sinash va takomillashtirish uchun uni yaratish kerak jumlalarning nutqiy korpusi va oldindan ishlov berish orqali korpus, tarmoqni o'qitish uchun kirish ma'lumotlarini tayyorlash va sinov. Umuman olganda, tabiiy nutqning korpuslari bo'lgan keng assortimentdan ehtiyotkorlik bilan tanlash orqali yaratilgan turli neytral jumlalar. Hozirda hissiy nutq yo'q ma'lumotlar bazasi mavjud. Natijada, hissiy nutq korpusi va biz uchun ANN treningi uchun ma'lumotlar bazasi yaratilishi kerak edi tadqiqot. Jumlalar professional aktyorlar tomonidan o'qildi, ikkita ayol va bitta erkak. Nutqni yozib olish a.da amalga oshirildi professional uskunaga ega ovoz yozish studiyasi (“wav” formati, Namuna olish chastotasi 44,1 kHz, 24 bit). Nutq korpusi yozma matn va uning tarkibidan iborat mos keladigan nutq signali, ikkalasi uchun ham ishlatiladi ANNni o'qitish. Murakkab korpus bo'lingan ikkita qism, birinchi to'plam mashg'ulot uchun ishlatiladi va ikkinchi qism sinov to'plami sifatida xizmat qiladi, shuningdek, monitoring uchun ishlatiladi va o’quv jarayonlari uchun topshiriladi. Ushbu bo'limda biz tadqiqot ishlarini asosiy komponentlar nuqtai nazaridan ko'rib chiqamiz (matn neyron TTSda tahlil, akustik modellar va vokoderlar). Biz birinchi navbatda asosiy taksonomiya bilan tanishdim.