Azərbaycan miLLİ elmlər akademiyasinin nəSİMİ adına DİLÇİLİK İnstitutu



Yüklə 1,21 Mb.
səhifə57/72
tarix30.12.2021
ölçüsü1,21 Mb.
#19055
1   ...   53   54   55   56   57   58   59   60   ...   72
K.A. VƏLİYEVA
EHTİMALİ-STATİSTİK METODLARIN

AZƏRBAYCAN DİLÇİLİYİNDƏ TƏTBİQİ
Açar sözlər: Ehtimal metodları, riazi statistika, tezlik lüğəti

Ключевые слова: частотные словари, вероятностный метод, вы­бо­ро­ч­ный метод, математическая статистика

Key words: frequency word-book, probabilistic methods, sampling method, mathematical statistics
Statistik metodların dilçilik tədqiqatlarında istifadəsi hələ 1905-ci ildən məşhur dilçi İ.A.Boduen de Kurtene tərəfindən irəli sürülmüş, ondan sonra A.M.Peşkovskiy, M.N.Peterson, E.D.Polivanov, V.V.Vinoqradov və s. alimlər davam etdirmişlər. 1938-ci ildə Vinoqradovun dildə tezlik göstəricilərinin rolu haqda mülahizəsi böyük maraq doğurmuşdur. “Müasir rus dili” kitabında o yazır ki, “müxtəlif kitab üslublarında və danışıqda, o cümlədən bədii ədəbiyyatda müxtəlif üslub və janrlarda sözlərin işlənmə tezliyi müxtəlifdir. Bu müxtəlifliklər, üslublar arasındakı struktur-qrammatik və eləcə də semantik fərqləri tədqiqat prosesində üzə çıxarmaqda kömək edir (1, 155-156).

Bu barədə V.V.İvanovun fikri ilə razılaşmaq olar ki, sözlər, hecalar və fonemlər arasındakı kəmiyyət münasibətlərinin tədqiqi dillərin təsnifatının tarixi aspektdə öyrənilməsinə zəmin yaradır. Misal üçün dildə təkhecalı sözlərin orta uzunluğu morfemlərə ayrılmırsa, bu tipli dillər musiqi vurğulu dillərə mənsub olur (vyetnam, klassik çin, mərkəzi Afrika dillərindən bəziləri və s.)... Digər mövcud qanunauyğunluqlardan biri də fonemlərin sayı ilə morfemlərin uzunluğu arasındakı əlaqədir. Misal üçün abxaz dilinin bzib şivəsində 81 fonem vardır. Bu asılılıqları da tarixi müqayisəli dilçilikdə dillərin müqayisəli-tipoloji səpgidə öyrənilməsində tətbiq etmək olar (2, 176-177).

Müşahidələr göstərir ki, sözdəki fonemlərin sayı (həm fonoloji və həm də struktur-semantik cəhətdən) morfemlərin keyfiyyətinə təsir edir (3,8). Bundan başqa dilləri kəmiyyətcə öyrənərkən aşkar olunur ki, dildəki elementlərin tezliyinin müxtəlifliyi müəyyən statistik qanunauyğunluqlarla bağlıdır. Bu sahədə aparılan tədqiqatlarda A.A.Markovun XIX-XX əsrlərdəki yazıçıların əsərlərində işlənən ümumişlək sözlərin orta tezliyinin müəyyənləşdirib müəllifləri bir-biri ilə müqayisə etməklə maraqlı nəticələrə gəlməsidir (4,142). Müşahidələr göstərir ki, dilçilik ədəbiyyatında statistik metoddan istifadədə də üstünlük tezlik lüğətlərinin tərtibinə verilmişdir. Tezlik lüğəti haqqında qısa məlumat verək.

Tezlik lüğətləri adı altında xüsusi tip lüğətlər nəzərdə tutulur. Burada adi iki dilli lüğətlərdən fərqli olaraq sözlərin siyahısı və onun ixtiyarı seçilmiş mətnlərdəki işlənmə tezliyi göstərilir.

Dilçiliyə statistik metodların tətbiqi mətnlərdə sözlərin işlənmə tezliyinə əsasən tərtib olunmuş tezlik lüğətlərin meydana gəlməsi ilə başlandı. Dünya dilçiliyində ilk statistik lüğət 1898-ci ildə tərtib edilmiş alman dilinin tezlik lüğətidir (5,113). Müəllif bu lüğətin tərtibi üçün 11 mln. sözdən ibarət mətnlər seçmişdir. Bundan sonra yüzlərlə müxtəlif sistemli dillərin tezlik lüğətləri meydana gəlmişdir. Bu lüğətlərin geniş tərtibatı və tarixi Frumkina (6, 5-8) tərəfindən verildiyindən burada onun şərhinə ehtiyac duymadığımızdan, yalnız Azərbaycan dilçiliyində statistik üsulla aparılan tədqiqatları nəzərdən keçirəcəyik.

Qeyd etməliyik ki, tərtib edilmiş tezlik lüğətlərinin dəqiqliyi mətnlərin həcm və seçimlərindən asılıdır. Bu seçim aşağıdakı elementar statistik düsturla təyin olunur.

Burada N – sistemin həcmi

 – nisbi xəta

P – tezlik

Zp – konstata

Lakin əksər lüğətlərdə həcm seçimi üçün bu düsturda istifadə edilmir. Adətən müəlliflər intuisiya yolu ilə həcmi müəyyənləşdirməklə məhdudlaşırlar.

Ehtimal nəzəriyyəsində seçim – ümumi  çoxluğundan ehtimal metodları ilə seçilmiş obyektlərdən ibarət, sonlu altçoxluqdur. S-dəki obyektlərin sayı seçimin həcmi adlanır. Əksər hallarda statistik seçim və seçimi təşkil edən obyektlərin xarakteristikalarının qiymətlər toplusu eyniləşdirilir. Obyektlər toplusunun (məs., istehsalatda ədədi məlumatları, demoqrafiyada əhaləni araşdırmaq üçün statistik seçimlərin yaradılmasında müxtəlif ehtimali metodlar istifadə olunur (seçim araşdırma metodu bax. Ehtimal nəzəriyyəsi və riyazi statistika ensiklopediyası, s. 2010, s. 803-804).

Qaytarmamaq şərtilə təsadüfi seçim -  -dan ixtiyari qaydada obyektlərin bir-bir ardıcıl surətdə götürülməsi ilə aparılır və seçilmiş obyektlər sonrakı seçmədə iştirak etmir, seçilməmiş bütün obyektlər sonrakı seçmədə iştirak etmir, seçilməmiş bütün obyektlərin seçilməsi ehtimalları eyni hesab olunur.  n elementli çoxluqdursa, onda qaytarmamaq şərtilə v həcmi seçimlərin sayı n (n-1) ... (n –r +1), (1  r  n) olacaqdır. Bu halda n elementli çoxluqdan r həcmli seçim qaytarmamaq şərtilə sxemi üzrə aparılır.

Qaytarmaq şərtilə təsadüfi seçim - -dan ixtiyari qaydada seçilən obyektlər hər dəfə məhz bu çoxluqdan götürülür. Belə ki, eyni bir obyekt təkrar götürülə bilər.  n elementli çoxluq olarsa, qaytarmaq şərtilə n həcmli seçimlərin sayı

n

.n... n = n

r dəfə

olacaqdır. Bu halda n elementli çoxluqlar r həcmli seçimi qaytarmaq şərtilə sxemi üzrə aparılır.

Əgər seçimdə hər bir obyektin hər hansı bir qaydadan asılı olmadan eyni p ehtimalı ilə seçilməsi qərarı qəbul edilirsə, onda alınan statistik seçim binominal seçim adlanır. Riyazi statistikada sonlu sayda obyektlərdən ibarət çoxluqlardan statistik seçimlərlə yanaşı, sonsuz çoxluqlardan ibarət seçimlərə də baxılır. Bax seçim metodu (7, 801-802).

R.M.Frumkinaya görə həcmi müəyyən seçimlə əsaslandırılmış lüğətlərdən Qarsiya Os tərəfindən hazırlanmış ispan dilinin lüğəti və Yosselsonun rus dilinin tezlik lüğətidir. 100 000 sözdən ibarət bu lüğətlər haqqında geniş məlumatı Frumkinanın yuxarıda adı çəkilən kitabından almaq olar. Leksikanın statistik metodla öyrənilməsində ən önəmli məqamlardan biri “Sipf qanunu” ilə tezliyin empirik asılılığının öyrənilməsidir.

Pr = k r Y

Burada r – siyahıda sözün azalan tezliyinin nömrəsidir.

Pr – r nömrə altında sözün nisbi tezliyi.

K, Y – isə sabit parametrlərdir (3, 16).

Azərbaycan dilçiliyinə gəlincə isə burada statistik metodla yazılı abidələrin öyrənil­məsi və uyğun tezlik lüğətlərin hazırlanması qarşıya məqsəd qoyulmuşdu.

Məlumdur ki, statistik yolla linqvistik materialların araşdırılması, yazılı abidələrin öyrənilməsi tədqiqatçıdan yüksək dəqiqlik tələb edir. Bu istiqamət üzrə Azərbaycan dilçiliyində 60-cı illərdə tədqiqatlar aparılmış, müasir Azərbaycan dili saitlərinin ümumi statistik təhlili edilmişdir. Kök və şəkilçilərdə işlənən saitlərin nisbəti araşdırılmış, sözün axırında, əvvəlində, ortasında işlənən saitlərin faiz göstəriciləri uyğun cədvəllərdə əks olunmuşdur (10, 18-20).

Dialektlərdə fonemlərin sözlərdəki mövqeyi ilk dəfə olaraq A.H.Vəliyev tərəfindən statistik metodla tədqiq edilmişdir (11, 44-57).

Klassik ədəbi irsimizdən yalnız Molla Vəli Vidadinin əsərlərindəki leksik vahidlərin işlənmə tezliyi müəyyənləşdirilmişdir (12).

Qeyd etməliyik ki, böyük zəhmət tələb edən bu statistik məlumatlar maşınsız, yalnız əl üsulu ilə görülmüşdür.

Azərbaycan dilçiliyində ilk dəfə olaraq 1979-cu ildə EHM vasitəsilə qəzet materialları əsasında “Azərbaycan dilinin tezlik lüğəti” tərtib olunmuşdur (13). Bu lüğətdə ikidilli lüğətlərdən fərqli olaraq lüğəvi vahidlərin mənası deyil, onun mətndə işlənmə tezliyinin göstəricisi qeyd olunmuşdur. Son illərdə tezlik lüğətinin elektron versiyası tərtib olunmuşdur (14). Bu lüğətin annotasiyasına nəzər saldıqda onun tərtibi üçün “Azərbaycan dilinin bütün üslubları təmsil olunmaqla təxminən 50 milyona yaxın söz-formadan ibarət mətnlər linqvostatistik təhlilə cəlb olunmuşdur. Elmi, bədii, publisistik, rəsmi, məişət və s. üslublara dair materialların elektron variantlarının mövcudluğu tədqiqatın hərtərəfli olmasına və statistik seçmə baxımından etibarlığına imkan yaratmışdır. Lüğətdə 12000-ə yaxın söz kökü əhatə olunmuşdur (14, 2).

Türkologiyada ilk dəfə tərtib olunmuş bu lüğət sanballılığı ilə seçilir və leksikanın statistik modeli kimi nəzəri və tətbiqi dilçiliyin, ümumi leksikologiyanın, dil tədrisinin bir çox problemlərinin həlli üçün əvəzsiz mənbə rolunu oynayır. Bundan başqa, Azərbaycan dilçiliyində Azərbaycan dilində söz formalarının statistik distributiv təhlili qrafem və fonem səviyyəsində tədqiq edilmiş, onların mətndə işlənmə tezliyi müəyyənləşdirilmişdir (15).

Qeyd etməliyik ki, bütün bu məsələlərin daha asan həlli üçün elektron hesablayıcı maşınların köməyindən istifadə olunur.



Yüklə 1,21 Mb.

Dostları ilə paylaş:
1   ...   53   54   55   56   57   58   59   60   ...   72




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin