Sun’iy neyron tarmoqlarida nutqni sintezlash modellari tahlili mavzusida bitiruv malakaviy ishi

Matn analizi va nutqni sintezlash jarayoni, akustik ovozli kodlash

Yüklə 1,67 Mb.

səhifə	6/23
tarix	24.03.2023
ölçüsü	1,67 Mb.
	#89648

1 2 3 4 5 6 7 8 9 ... 23

Baxodirov Abduraxmon BMI

6-rasm. Asosiy komponentlar va malumotlar oqimlari nuqtai nazaridan neyron TTS taksonomiyasi

1.2. Matn analizi va nutqni sintezlash jarayoni, akustik ovozli kodlash
Ushbu bo'limda biz tadqiqot ishlarini asosiy komponentlar nuqtai nazaridan ko'rib chiqamiz (matn neyron TTSda tahlil, akustik modellar va vokoderlar). Biz birinchi navbatda asosiy taksonomiya bilan tanishamiz 2.1-bo'limda ushbu istiqbolga muvofiq, so'ngra 2.2-bo'limda uchta TTS komponentini kiriting,
2.3-bo'lim va 2.4-bo'lim. Bundan tashqari, biz 2.5-bo'limda to'liq yakuniy TTS bo'yicha ishlarni ko'rib chiqamiz. Asosiy taksonomiyadan tashqari, biz kabi ko'proq taksonomiyalarni ham kiritamiz avtoregressiv/avtoregressiv bo'lmagan ketma-ketlikni yaratish, generativ model, tarmoq tuzilishi, shuningdek TTS bo'yicha vakillik tadqiqot ishlarining xronologiyasi sifatida

6-rasm. Asosiy komponentlar va ma'lumotlar oqimlari nuqtai nazaridan neyron TTS taksonomiyasi
Biz neyron TTS bo'yicha ishlarni asosan asosiy TTS komponentlari nuqtai nazaridan toifalarga ajratamiz:
matn tahlili, akustik modellar, vokoderlar6
, va 3a-rasmda ko'rsatilganidek, to'liq uchigacha modellar. Biz
Ushbu taksonomiya ma'lumotlarni matndan to'lqin shakliga o'tkazish oqimiga mos kelishini toping: 1) Matn tahlil xarakterni fonema yoki lingvistik xususiyatlarga aylantiradi; 2) Akustik modellar akustik hosil qiladi lingvistik xususiyatlar yoki belgilar/fonemalardan xususiyatlar; 3) Vokoderlar to'lqin shaklini hosil qiladi til xususiyatlaridan yoki akustik xususiyatlardan; 4) To'liq uchidan uchiga modellar to'g'ridan-to'g'ri aylantiriladi belgilar/fonemalarni to‘lqin shakliga aylantiradi.
Biz TTS ishlarini matndan to'lqin shakliga ma'lumotlar oqimiga ko'ra qayta tashkil qilamiz, ko'rsatilganidek . Matnni nutqqa aylantirish jarayonida bir nechta ma'lumotlar taqdimoti mavjud: 1) Matnning xom formati bo'lgan belgilar. 2) Matn orqali olinadigan lisoniy xususiyatlar tahlil va talaffuz va prosodiya haqida boy kontekst ma'lumotlarini o'z ichiga oladi. Fonemalar bitta lingvistik xususiyatlarning eng muhim elementlaridan biri bo'lib, odatda matnni ifodalash uchun yolg'iz ishlatiladi neyronga asoslangan TTS modellarida. 3) Nutqning mavhum tasviri bo'lgan akustik xususiyatlar to'lqin shakli. Statistik parametrik nutq sintezida [16, 6, 15, 25, 7], LSP (chiziqli spectral juft) [5], MCC (mel-kepstral koeffitsientlar) [22], MGC (mel-umumiy koeffitsientlar) [5], F0 va BAP (band aperiodicities) akustik xususiyatlar sifatida ishlatiladi, ularni osongina o'zgartirilishi mumkin.
STRAIGHT [15] va WORLD [18] kabi vokoderlar orqali toʻlqin shakliga kiritiladi. Neyronga asoslangan endto-end TTS modellarida odatda akustik xususiyatlar sifatida mel-spektrogramlar yoki chiziqli-spektrogramlar qo'llaniladi,
Neyron asosidagi vokoderlar yordamida to'lqin shakliga aylantiriladi. 4) To'lqin shakli, oxirgi formati nutq. 3b-rasmdan ko'rinib turibdiki, matndan to'lqin shakliga turli xil ma'lumotlar oqimi bo'lishi mumkin, shu jumladan: 1) belgi → lingvistik xususiyatlar → akustik xususiyatlar → to'lqin shakli; 2) belgi → fonema → akustik xususiyatlar → to‘lqin shakli; 3) belgi → lingvistik xususiyatlar → to‘lqin shakli; 4) belgi → fonema → akustik xususiyatlar → to'lqin shakli; 5) belgi → fonema → to‘lqin shakli, yoki belgi → to'lqin shakli. TTSda frontend deb ham ataladigan matn tahlili kiritilgan matnni o'z ichiga olgan lingvistik xususiyatlarga aylantiradi nutq sintezini osonlashtirish uchun talaffuz va prosodiya haqida boy ma'lumotlar. Statistik parametrlarda sintez, matn tahlili lingvistik xususiyat vektorlari ketma-ketligini olish uchun ishlatiladi [27] va o'z ichiga oladi matnni normallashtirish [16, 19], so'zlarni segmentatsiyalash [4], nutqning bir qismi kabi bir nechta funksiyalar (POS) teglash , prosodiyani bashorat qilish va grafemani fonemaga aylantirish [10]. In end-to-end neyron TTS, neyronga asoslangan modellarning katta modellashtirish qobiliyati tufayli, xarakter yoki fonema ketma-ketliklari bevosita sintez uchun kirish sifatida olinadi va shuning uchun matnni tahlil qilish moduli hisoblanadi asosan soddalashtirilgan. Ushbu stsenariyda standart so'z formatini olish uchun matnni normallashtirish hali ham kerak belgilar kiritishdan va fonemalarni olish uchun grafemadan fonemaga konvertatsiya qilish zarur standart so'z formatidan. Garchi ba'zi TTS modellari to'liq yakuniy sintezni da'vo qilsa ham to'g'ridan-to'g'ri matndan to'lqin shaklini yaratadi, xom matnni istalgan bilan ishlash uchun matnni normallashtirish hali ham kerak amaliy foydalanish uchun mumkin bo'lgan nostandart formatlar. Bundan tashqari, ba'zi bir uchidan uchiga TTS modellari o'z ichiga oladi an'anaviy matn tahlili funktsiyalari. Masalan, Char2Wav [15] va DeepVoice 1/2 [8, 27] sof neyronga asoslangan holda xarakterdan tilga xos xususiyatni uning quvur liniyasiga aylantirishni amalga oshiring tarmoqlar va ba'zi ishlar[21] matn kodlovchi bilan prosodiya xususiyatlarini aniq bashorat qiladi. Qolganlarida ushbu kichik bo'limda biz birinchi navbatda statistik parametrik sintezda matnni tahlil qilish uchun odatiy vazifalarni kiritamiz, keyin esa TTS modellarida matn tahlilining rivojlanishini muhokama qiling.
Biz 1-jadvalda matnni tahlil qilish bo'yicha ba'zi tipik vazifalarni umumlashtiramiz va ba'zi vakillik ishlari bilan tanishamiz har bir vazifa uchun quyidagicha.
• Matnni normallashtirish. Xom yozma matn (nostandart so'zlar) matnni normallashtirish orqali og'zaki so'zlarga aylantirilishi kerak, bu so'zlarni TTS uchun talaffuz qilishni osonlashtirishi mumkin. modellar. Masalan, "1989" yil "o'n to'qqiz sakson to'qqiz", "yanvar. 24" dir "Yigirma to'rtinchi yanvar" ga normallashtirildi. Matnni normallashtirish bo'yicha dastlabki ishlar qoidaga asoslangan.
• So‘zlarni segmentlash. Xitoy kabi belgilarga asoslangan tillar uchun so'zlarni segmentatsiyalash [4, 11, 24] xom matndan so'z chegarasini aniqlash uchun zarur, bu esa ta'minlash uchun muhimdir keyinroq POS yorlig'i, prosodiyani bashorat qilish va grafemani fonemaga aylantirish jarayoni uchun aniqlik.
• Nutq qismini teglash. Har bir so'zning ot, fe'l, predlog kabi nutq qismi (POS) hisoblanadi TTSda grafemani fonemaga aylantirish va prosodiyani bashorat qilish uchun ham muhimdir. Bir nechta asarlar nutq sintezida POS teglarini tadqiq qildilar [19, 27, 2, 1, 5].
• Prosodiyani bashorat qilish. Nutqning ritmi, stressi va intonatsiyasi kabi prosodiya ma'lumotlari; bo'g'in davomiyligi, ovoz balandligi va balandligidagi o'zgarishlarga mos keladi, bu muhim rol o'ynaydi inson nutqi muloqotidagi pertseptiv roli. Prosodiy bashorat teglash tizimlariga tayanadi prosodiyaning har bir turini belgilash. Turli tillarda turli xil prosodiya teglash tizimlari va asboblar [6, 4]. Ingliz tili uchun ToBI (tonlar va tanaffus indekslari) [7, 8] mashhur ohanglar uchun teglarni tavsiflovchi teg tizimi (masalan, tovush balandligi, ibora urg'u va chegara ohanglar) va uzilish (so'zlar orasidagi tanaffus qanchalik kuchli). Masalan, ushbu jumlada “Maryam do'konga ketdimi?", "Meri" va "do'kon" ni ta'kidlash mumkin va bu jumla ohangni oshiradi. A ko'plab ishlar [20, 19, 14, 10] prosodiyani bashorat qilish uchun turli modellar va xususiyatlarni o'rganadi.
ToBI asosidagi teglar. Xitoy nutq sintezi uchun odatiy prosodiya chegara belgilaridan iborat qurish mumkin bo'lgan prozodik so'z (PW), prosodik ibora (PPH) va intonatsion ibora (IPH) uch qavatli ierarxik prosodiya daraxti [51, 328, 64]. Ayrim asarlar [22] CRF , RNN [21] va o'ziga e'tibor kabi turli model tuzilmalarini o'rganing. xitoy tilida prosodiya bashorati.
• Grafemadan fonemaga (G2P) aylantirish. Belgini (grafemani) talaffuzga aylantirish (fonema) nutq sintezini sezilarli darajada osonlashtiradi. Masalan, "nutq" so'zi "s" ga aylantiriladi p iy ch”. Qo'lda to'plangan grafema-fonema leksikasi odatda konvertatsiya qilish uchun ishlatiladi.
Biroq, ingliz kabi alifbo tillari uchun leksika barcha tillarning talaffuzini qamrab ololmaydi so'zlar. Shunday qilib, ingliz tili uchun G2P konvertatsiyasi asosan talaffuzlarni yaratish uchun javobgardir lug‘atdan tashqari so‘zlardan [12, 24, 10, 19, 13, 16]. Xitoy kabi tillar uchun, garchi leksikon deyarli barcha belgilarni qamrab olishi mumkin, faqat hal qilinishi mumkin bo'lgan juda ko'p polifonlar mavjud belgi kontekstiga ko'ra7 Shunday qilib, ushbu turdagi tillarda G2P konvertatsiyasi asosan asosida tegishli talaffuz qaror qiladi, polifon disambiguation uchun mas'ul joriy so‘z konteksti .
Yuqoridagi matn tahlillaridan so'ng biz lingvistik xususiyatlarni qo'shimcha ravishda qurishimiz va ularni kirish sifatida qabul qilishimiz mumkin TTS quvurining keyingi qismi, masalan, SPSS-dagi akustik modellar yoki vokoderlar [14]. Odatda, biz qila olamiz turli darajadagi matn tahlili natijalarini jamlash orqali lingvistik xususiyatlarni yaratish, shu jumladan fonema, bo‘g‘in, so‘z, ibora va gap darajalari [19]. Munozaralar Matn tahliliga nisbatan neyron TTSda kamroq e'tibor qaratilayotgan ko'rinadi
SPSS, u turli yo'llar bilan neyron TTSga kiritilgan: 1) Ko'p vazifali va birlashtirilgan frontend model. Yaqinda Pan va boshqalar. [19], Chjan va boshq. [24] barcha vazifalarni qamrab oladigan birlashtirilgan modellarni loyihalash ko'p vazifali paradigmada matnni tahlil qilish va yaxshi natijalarga erishish. 2) Prosodiyani bashorat qilish. Ushbu bo'limda biz akustik xususiyatlarni yaratadigan akustik modellar bo'yicha ishlarni ko'rib chiqamiz lingvistik xususiyatlar yoki bevosita fonema yoki belgilardan. TTSning rivojlanishi sifatida, boshqacha akustik modellarning turlari, jumladan, HMM va DNN asosidagi ilk modellar qabul qilingan statistik parametrik nutq sintezi (SPSS) [16, 6, 26, 4, 19, 24] va keyin ketma-ketlik kodlovchi-diqqat-dekoder tizimi (jumladan, LSTM, CNN va selfattention) va eng so'nggi oldinga uzatish tarmoqlari (CNN yoki o'z-o'ziga e'tibor) [10, 19] parallel avlod uchun. Akustik modellar yordamida to'lqin shakliga aylantiriladigan akustik xususiyatlarni yaratish maqsad qilingan vokoderlar. Akustik xususiyatlarni tanlash asosan TTS quvurlarining turlarini aniqlaydi. Turli mel-kepstral koeffitsientlar (MCC) [22], melgeneralized koeffitsientlar (MGC) [15], diapazonning aperiodikligi (BAP) [6, 19], asosiy chastota kabi akustik xususiyatlarning turlari sinab ko'rildi.
(F0), ovozli/ovozsiz (V/UV), poʻstloq chastotali sepstral koeffitsientlar (BFCC) va eng keng tarqalgan mel-spektrogrammalardan foydalaniladi. Shunga ko'ra, akustik modellarni ikki davrga ajratishimiz mumkin: 1) akustik MGC, BAP va F0 kabi akustik xususiyatlarni odatda tilshunoslikdan bashorat qiluvchi SPSS modellari xususiyatlar va 2) akustik xususiyatlarni bashorat qiluvchi neyronga asoslangan uchdan-end TTSdagi akustik modellar fonema yoki belgilardan mel-spektrogrammalar kabi.
SPSS [25, 19] da HMM [16, 6], DNN [26, 14] yoki RNN [19, 24] kabi statistik modellar mavjud. lingvistik xususiyatlardan akustik xususiyatlarni (nutq parametrlarini) yaratish uchun foydalaniladi, bu erda kabi vokoder yordamida hosil qilingan nutq parametrlari nutq to'lqin shakliga aylantiriladi TO'G'RI [1] va DUNYO [18]. Ushbu akustik modellarning ishlanmalari tomonidan boshqariladi

Yüklə 1,67 Mb.

Dostları ilə paylaş:

1 2 3 4 5 6 7 8 9 ... 23