Leksik tanib olish. Tabiiy tillarda murakkab og‘zaki gapning ma’nosini kichikroq leksik bo‘laklarga (taxminan, til so‘zlari) ajratish, har bir bo‘lakka ma’no bog‘lash va bu ma’nolarni tilning grammatik qoidalariga muvofiq birlashtirish orqali tushunish mumkin. Garchi leksik tanib olish chaqaloqlarning birinchi yilida qo'llanilmasa ham, ularning lug'at boyligi juda cheklanganligi sababli, bu kattalar uchun nutq segmentatsiyasining asosiy jarayonlaridan biridir. Hozirgi tadqiqotlarda leksik tanib olishning uchta asosiy modeli mavjud: birinchidan, so'zlarning leksikada butun so'z ifodasiga ega ekanligini ta'kidlaydigan butun so'zdan foydalanish; ikkinchidan, morfologik jihatdan murakkab so‘zlarning morfemalarga ( ildiz , o‘zak , burilish va hokazo) bo‘linib , so‘ngra izohlanishi va; uchinchidan, butun soʻz va dekompozitsiya modellari ham qoʻllaniladi, lekin butun soʻz modeli baʼzi hisoblash afzalliklarini beradi va shuning uchun leksik tanib olishda ustunlik qiladi, degan qarash.
Misol uchun, butun so'zli modelda "mushuklar" so'zini avval "c", keyin "ca", "mushuk" va nihoyat "mushuklar" harfi bilan saqlash va qidirish mumkin. Xuddi shu so'z, parchalanuvchi modelda, "mushuk" so'zining ildizi ostida saqlanadi va "s" qo'shimchasini olib tashlaganidan keyin qidirilishi mumkin. "Falling", xuddi shunday, "tushish" sifatida saqlanadi va "ing" fleksiyasi bilan qo'shiladi.
Dekompozitsiya modeli tarafdorlari morfema-morfema tahlili sezilarli darajada ko'proq hisoblashni talab qilishi mumkinligini tan olishsa-da, ular morfologik ma'lumotni ochish leksik qidiruvlarga parallel ravishda sodir bo'lishi mumkin bo'lgan boshqa jarayonlar (masalan, sintaktik tuzilish) uchun zarurligini ta'kidlaydilar .Umuman olganda, insonning leksik tan olinishi tizimlari bo'yicha tadqiqotlar uchta asosiy modelni to'liq ajratib turadigan kam eksperimental dalillar tufayli cheklangan.
Qanday bo'lmasin, leksik tanib olish, ma'lum so'zlar yoki tarkibiy qismlarning birgalikda yuzaga kelishining statistik ehtimoliga asoslangan katta ehtimolli tizim ekanligini hisobga olsak, u taqdim etgan kontekstli maslahatlar orqali nutq segmentatsiyasiga sezilarli hissa qo'shadi. Misol uchun, odam "men itimni ____ do'konida sotib oldim" deb aytishi mumkin bo'lgan vaziyatni tasavvur qilish mumkin va etishmayotgan so'zning unlisi "to'r", "ter" yoki "uy hayvonlari" kabi talaffuz qilinadi. "Netshop" ehtimoli juda past bo'lsa-da, "netshop" hozirda ingliz tilidagi birikma yoki ibora emas va "sweatshop" ham kontekst nuqtai nazaridan imkonsiz bo'lib tuyulsa-da, "pet shop" juda mos keladi, chunki u umumiy ibora va "it" so'zi bilan ham bog'liq.Bundan tashqari, nutq so'zlarga bo'linishiga qarab turli xil ma'nolarga ega bo'lishi mumkin. Ko'pincha bu sohada keltirilgan mashhur misol - "Qanday qilib go'zal plyajni vayron qilish kerak" iborasi "Nutqni qanday tanib olish kerak" ga juda o'xshaydi . [4] Ushbu misoldan ko'rinib turibdiki, to'g'ri leksik segmentatsiya inson bilimi va tajribasiga asoslangan kontekst va semantikaga bog'liq va shuning uchun kompyuterda ilg'or naqshni aniqlash va sun'iy intellekt texnologiyalarini talab qiladi.
Leksik tan olish kompyuter nutqini aniqlash sohasida alohida ahamiyatga ega , chunki semantik bog'langan g'oyalar tarmog'ini yaratish va qidirish qobiliyati nutqni aniqlash dasturining samaradorligini sezilarli darajada oshiradi. Statistik modellar yozib olingan nutqni so'zlarga yoki telefonlarga ajratish va moslashtirish uchun ishlatilishi mumkin. Ilovalar multfilm animatsiyasi uchun avtomatik lab-sinxronizatsiya vaqtini o'z ichiga oladi. Avtomatik segmentatsiya va hizalama dasturi tijoratda mavjud.
Fonotaktik belgilar.
Aksariyat nutqiy tillar uchun leksik birliklar orasidagi chegaralarni aniqlash qiyin; fonotaktika bu masalaga bitta javobdir. Ingliz yoki ispan kabi ko'plab yozma tillar tomonidan qo'llaniladigan so'zlararo bo'shliqlar ularning og'zaki nutqidagi pauzalarga mos kelishini kutish mumkin, ammo bu faqat juda sekin nutqda, ma'ruzachi ataylab bu pauzalarni kiritganda to'g'ri keladi. Oddiy nutqda, odatda, ko'plab ketma-ket so'zlar, ular orasida pauzasiz aytiladi va ko'pincha bir so'zning oxirgi tovushlari silliq aralashadi yoki keyingi so'zning boshlang'ich tovushlari bilan birlashadi.
Nutqning yozuv kabi, alohida unlilar va undoshlar ketma-ketligi sifatida hosil bo'lishi haqidagi tushuncha ba'zi til jamoalari uchun alifbo merosining yodgorligi bo'lishi mumkin. Darhaqiqat, undosh tovushlarga atrofdagi undoshlar ta'sir qilganidek, unlilarning hosil bo'lish usuli ham atrofdagi undoshlarga bog'liq; Bu koartikulyatsiya deb ataladi . Misol uchun, "to'plam" so'zida [k] biz "ushladi" deganimizdan ko'ra ancha oldinga tushadi. Bundan tashqari, "tepki" dagi unli tovush "to'plamdagi" unlidan fonetik jihatdan farq qiladi, lekin biz buni odatda eshitmaymiz. Bundan tashqari, tasodifiy nutqda yuzaga keladigan tilga xos o'zgarishlar mavjud bo'lib, bu uni imlodan ancha farq qiladi. Misol uchun, ingliz tilida "hit you" iborasi ko'pincha "hitcha" deb yozilishi mumkin.
Parchalanish nuqtai nazaridan, ko'p hollarda fonotaktika ma'ruzachilarga so'z chegaralarini qayerda chizish kerakligini bilishga imkon berishda rol o'ynaydi. Ingliz tilida "qulupnay" so'zi ma'ruzachilar tomonidan (fonetik jihatdan) ikki qismdan iborat sifatida qabul qilinadi: "somon" va "berry". "Stra" va "wberry" kabi boshqa talqinlar ingliz fonotaktikasi tomonidan inhibe qilinadi, bu esa "wb" so'zini dastlab klasterga ruxsat bermaydi. Boshqa shunga o'xshash misollar "kun/tush" va "mil/tosh" bo'lib, ular ma'lum klasterlarning fonotaktik ehtimoli yoki ehtimolligi tufayli "da/dream" yoki "mil/estone" deb talqin qilinishi dargumon. Fonetik jihatdan [faɪvwɪmɘnlɛft] sifatida transkripsiya qilinishi mumkin bo'lgan "Besh ayol qoldi" jumlasi,Ingliz fonotaktikasida. Ushbu fonotaktik belgilar ko'pincha ma'ruzachilarga so'zlardagi chegaralarni osongina ajratish imkonini beradi.
Fin kabi tillardagi unlilar uyg‘unligi ham fonotaktik signallarni taqdim etishi mumkin. Tizim old va orqa unlilarning bir morfema ichida birga boʻlishiga yoʻl qoʻymasa-da, birikmalar soʻzda yonma-yon mavjud boʻlgan holda ikkita morfemaning oʻz unli uygʻunligini saqlab qolish imkonini beradi. Shu sababli, birikmadagi ikkita tarkibiy qism oʻrtasida unlilar uygʻunligi farq qiladigan “selkä/ongelma” (“orqa muammosi”) kabi birikmalarda chegara uygʻunlik almashinishi sodir boʻlgan joyda – “ä” va “ö” oʻrtasida boʻladi. " Ushbu holatda. Shunga qaramay, fonotaktika segmentatsiyaga yordam bermasligi mumkin bo'lgan holatlar mavjud. “opinto/uudistus” (“talaba islohoti”)dagi kabi noaniq guruhlar yoki qarama-qarshi unlilar uyg‘unligi bo‘lgan so‘zlar[6] [ to'liq iqtibos kerak Biroq, butun so'z modeli nuqtai nazaridan, bu so'zlar to'liq so'zlar sifatida saqlanadi deb hisoblanadi, shuning uchun tarkibiy qismlar leksik tanib olish uchun mutlaqo tegishli bo'lmaydi.