Kurs iŞİ Fakültə : İnformasiya texnologiyaları və idarəetmə (İTİF) İxtisas : İnformasiya təhlükəsizliyi Kafedra : Kompüter mühəndisliyi kafedrası Fənnin adı : Böyük verilənlərin emalı texnologiyaları Mövzu : Verilənlərin anonimləşdirilməsi Qrup


Dəyişən qiymətlərin yenidən kodlaşdırılması



Yüklə 213,77 Kb.
səhifə15/21
tarix05.01.2023
ölçüsü213,77 Kb.
#78475
1   ...   11   12   13   14   15   16   17   18   ...   21
Əli Kurs işi

2. Dəyişən qiymətlərin yenidən kodlaşdırılması
Dəyişənin dəyərlərini yenidən kodlaşdırmaq, sadəcə dəyişəni silməkdən daha yaxşı həll yoludur. Məsələn, məktəblərin adlarını daxil etmək əvəzinə, siz məktəb dəyişənini 'aşağı orta məktəb', 'yuxarı orta məktəb', 'peşə məktəbi' və s. kimi daha geniş kateqoriyalara yenidən kodlaya bilərsiniz. Siz həmçinin dəqiq yaş, yaşayış və məşğuliyyət bələdiyyəsi. Məsələn, gün, ay və il deyil, doğum ilini qeyd edin və ya onu 3-5 yaş qrupları olan kateqoriyalara yenidən yazın.Poçt kodları kimi ətraflı coğrafi məlumatları ehtiva edən dəyişənlər beş rəqəmli dəyişənlərdən iki və ya üç rəqəmli dəyişənlərə birləşdirilə bilər. Respondentin yaşadığı bələdiyyəni müəyyən edən dəyişən iki fərqli dəyişənə birləşdirilə bilər: rayon/vilayət və bələdiyyə növü (şəhər, yarımşəhər, kənd və s.). Bu, tədqiqat üçün müvafiq əsas məlumatı itirmədən identifikasiya riskini minimuma endirmək üsuludur. Statistika Finlandiya tərəfindən sosial və regional təsnifatlar dəyişənlərin təsnifatına kömək edir.Açıqlama riskini azaltmağın bir yolu, kənar göstəriciləri istisna etmək üçün davamlı dəyişənin yuxarı və aşağı diapazonlarını məhdudlaşdırmaqdır. Bu anonimləşdirmə texnikası adətən gəlir dəyişənləri üçün istifadə olunur. Ən yüksək gəlirlər üst kodlaşdırıla bilər, yəni yeni kateqoriyaya (məsələn, "60.000 avro və ya daha çox") kodlaşdırıla bilər, digər gəlir cavabları isə faktiki dəyərlər kimi saxlanılır. Eyni şəkildə, ən kiçik müşahidə edilən dəyərlər alt kodlaşdırıla bilər.Dəyişənlərin kateqoriyalara bölünməsi və ya qabalaşdırılması statistik nəticələr çıxarmaq imkanını əhəmiyyətli dərəcədə azalda bilər. Məlumatın faydası və açıqlama riski arasında tarazlıq yaratmaq üçün yaxşı seçim dəyişənin bəzi dəyərlərini ixtiyari olaraq daha geniş kateqoriyalara yenidən kodlaşdırmaqdır. Tezliyin paylanması 1-20 arasındadırsa və əksər hallarda 1-12 dəyərlərinə düşürsə, 10-dan aşağı olan dəyərləri olduğu kimi tərk etmək və daha yüksək dəyərləri 13-15 və 16-20 kimi daha geniş kateqoriyalara birləşdirmək yaxşı olar. Bununla belə, bu texnikanın dəyişənin ortasına, eləcə də müxtəlif dəyişənlər arasındakı korrelyasiyaya təsirinə diqqət yetirməlisiniz. Bir və ya bir neçə kateqoriya fərdin müəyyən edilməsi üçün risk təşkil edərsə, kateqoriya dəyişənləri anonimləşdirilməlidir. Müəyyən edilə bilən kateqoriya başqa kateqoriya və ya bir neçə kateqoriya ilə birləşdirilir. Təhlillərdə kateqoriyalardan istifadəni asanlaşdırmaq üçün, mümkünsə, kateqoriyaları birləşdirən bəzi amillərə uyğun olaraq təsnifat aparılmalıdır. Məsələn, əgər “mülki tərəfdaşlıq” etiketli kateqoriya ailə vəziyyətini bildirən dəyişəndə ​​anonimləşdirmə tələb edirsə, kateqoriya “nikah” kateqoriyası ilə birləşdirilməlidir, çünki mülki tərəfdaşlıq və nikah “mülki tərəfdaşlıq” ilə müqayisədə təhlillərdə daha oxşar və daha faydalıdır. ortaqlıq' kateqoriyaları 'dul (er)' və ya 'subay, heç vaxt evlənməmiş' kateqoriyaları ilə birlikdə təsnif edildi. Müəyyən edilə bilən kateqoriyaları "itkin" kimi yenidən kodlaşdırmaq da mümkündürİdentifikatorları silməyin başqa bir yolu açıq cavabları təsnif etməkdir. Bu texnika yaşayış yeri, təhsil, təhsil müəssisələri, iş yeri və s. kimi əsas məlumatları toplayan açıq tipli suallar üçün yaxşı işləyir. Məsələn, həkimlər arasında keçirilən sorğuda ixtisas üzrə açıq sual ola bilər. Digər fon dəyişənləri ilə əlaqəli olan bu dəyişən birdən çox sahədə ixtisaslaşmış həkimlərin müəyyən edilməsinə səbəb ola bilər. Bir həll yolu açıq dəyişəni daha geniş “iki və ya daha çox ixtisas sahəsi” kateqoriyasına malik olmaq üçün kodlaşdırmaqdır.Mətn cavabları digər fon dəyişənləri ilə əlaqələndirildikdə açıqlama riskinə səbəb ola bilərsə, açıq tipli cavabları dixotom dəyişənə (cavab verdi - cavab vermədi) dəyişdirmək də mümkündür. Bu, cavab variantlarının çoxunun təsnif edildiyi və qeyd olunan heç bir sinifə aid olmayan cavablar üçün ayrıca açıq tipli "Digər, lütfən qeyd edin" variantının yaradıldığı əsasən kəmiyyət dəyişənləri üçün əlverişli ola bilər. Məsələn, belə bir sual iştirakçının ana dilinin nə olduğunu soruşmaq üçün istifadə edilə bilər, cavab variantları "1) Fin dili, 2) İsveççe, 3) Digər, zəhmət olmasa, qeyd edin' və ya dini məzhəb (Evangelist-Lüteran; Ortodoks; Digər (qeyd edin). Sonuncu alternativə verilən açıq cavablar digər fon dəyişənləri ilə əlaqəli olduqda identifikasiya riski təşkil edə bilər. Yaxşı bir həll, məlumatlardan açıq cavabları silmək və yalnız respondentin bu seçimi seçib-seçməməsi barədə məlumat buraxmaqdır.

Yüklə 213,77 Kb.

Dostları ilə paylaş:
1   ...   11   12   13   14   15   16   17   18   ...   21




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin