Kurs iŞİ Fakültə : İnformasiya texnologiyaları və idarəetmə (İTİF) İxtisas : İnformasiya təhlükəsizliyi Kafedra : Kompüter mühəndisliyi kafedrası Fənnin adı : Böyük verilənlərin emalı texnologiyaları Mövzu : Verilənlərin anonimləşdirilməsi Qrup


Açıq uçlu dəyişənlərdə cavabların redaktə edilməsi



Yüklə 213,77 Kb.
səhifə16/21
tarix05.01.2023
ölçüsü213,77 Kb.
#78475
1   ...   13   14   15   16   17   18   19   20   21
Əli Kurs işi

3. Açıq uçlu dəyişənlərdə cavabların redaktə edilməsi
Respondentlərin öz sözləri ilə cavab verə biləcəyi açıq tipli suallar bəzən identifikatorlardan ibarətdir. Bu identifikatorlar respondentlərin özlərinə və ya üçüncü şəxslərə aid ola bilər. İdentifikatorlar (adlar, telefon nömrələri, e-poçt ünvanları və s.) silinərsə, açıq cavablardakı məlumatlar qəti şəkildə zərər görmür. Açıq uçlu dəyişənlərdə digər potensial müəyyənedici məlumatlara gəldikdə, araşdırmanın mövzusu və mövcud fon dəyişənləri nəzərə alınmaqla, açıqlama riski hər bir halda qiymətləndirilməlidir.Məlumatlardakı anonim adları, sözləri və çıxarışları kvadrat mötərizə ilə qeyd edə bilərsiniz. Orijinal terminlər kvadrat mötərizədə daha kobud, daha ümumi şərtlərlə əvəz edilə bilər və ya sadəcə olaraq [identifikator silindi] kimi qeyd oluna bilər. Açıq tipli cavabların anonimləşdirilməsi zamanı siz anonimləşdirilmiş məlumatın orijinal dəyərinin müstəsna xarakterinə görə asanlıqla müəyyən edilə biləcəyini nəzərə almalısınız. Məsələn, Anytown İbtidai məktəbinin bütün müəllimləri arasında aparılan sorğuda bir müəllim deyir ki, o, məktəbin Appletree adlı yeganə xüsusi bölməsində işləyir və orada cəmi üç işçi çalışır. Bölmədə çox az müəllim olduğu üçün məlumat müəyyən edir və silinməlidir, məsələn: [identifikator silindi]. Sadəcə olaraq, xüsusi bölməni aşağıdakı kimi anonimləşdirmək kifayət deyil: [Anytown İbtidai məktəbinin Y xüsusi bölməsi silindi]. Bunun səbəbi unikal xüsusi vahidin asanlıqla təxmin edilməsidir. Açıq cavablarda müəllimin xüsusi bölmədə işlədiyini göstərən bütün əlavə məlumatlar da silinməlidir.
4. K-anonimlik və l-müxtəliflik
Açıqlama riskini qiymətləndirmək üçün tədqiqatçıya öz məlumatlarının anonimliyi ilə bağlı perspektiv əldə etməyə və qəbul edilmiş qərarları əsaslandırmağa kömək edən statistik anonimləşdirmə üsulları mövcuddur. Bu üsulların ən məşhurlarından biri anonimləşdirməyə statistik yanaşmaların ən yaxşı xüsusiyyətlərini birləşdirməyə cəhd olan k-anonimləşdirmədir (Elliot et al. 2016). K-anonimləşdirmə və l-müxtəliflik, məsələn, məlumatların tam populyasiyadan toplandıqda və fərdlərin və ya fərdlərin qruplarının dolayı identifikasiyasına imkan verən atributlar olduqda istifadə edilə bilər. Bu cür məlumatlara başqaları arasında xəstə məlumatları daxildir. K-anonimləşdirmə və l-müxtəliflik digər anonimləşdirmə üsullarından istifadə edildikdən sonra uğurlu anonimləşdirməni təmin etmək üçün də istifadə edilə bilər. K-anonimləşdirmə eyni atributlara malik ən azı qeyddən ibarət qrup yaratmaqla məlumat vahidinin identifikasiyasına mane olmaq məqsədi daşıyır (El Emam & Dankar 2008). Başqa sözlə, dəyişənin hər bir dəyərində ən azı k qeyd olmalıdır. Məsələn, məlumat dəstində Tamperedən olan yaşı yüzdən çox olan yalnız bir kişi olduğu bir vəziyyətdə, bu fərd digərləri arasında qruplaşdırılmalıdır ki, o, bu atributlara malik yeganə şəxs olmasın. Məlumatlarda Tamperedən olan yaşı 90-dan yuxarı olan digər kişilər varsa, yüz yaşlıları da onların arasında qruplaşdırmaq olar. üçün dəqiq dəyər yoxdur və bu, hər bir halda qərar verilməlidir. Bəzən iki məlumat vahidi kifayət ola bilər (Cabrera 2017), lakin ən azı üçə üstünlük verilir. Bəzi alimlər -də 5-10 məlumat vahidi olması lazım olduğunu iddia edirlər. (Anguli et al. 2015; Machanavajjhala et al. 2007). k-anonimliyi ilə bağlı problem ondan ibarətdir ki, k-anonimləşdirilmiş qrupun bütün fərdləri atributun eyni dəyərini bölüşürlərsə, o, təcavüzkarın hansı həssas atributun söz mövzusu olduğu barədə nəticə çıxarmasına mane olmur. Yəni, k-anonimləşdirmə şəxsiyyətin açıqlanmasının qarşısını alır, lakin atributun açıqlanmasına mane olmur l-müxtəlifliyin faydalı olduğu yer budur. L-müxtəliflik eyni atributlara malik məlumat vahidləri qrupunda ən azı l -nin olmasını təmin edir. həssas atribut üçün dəyərlər. Başqa sözlə, dəyərlər arasında kifayət qədər dəyişkənlik olmalıdır ki, təcavüzkar dəyərin hansı növ həssas məlumatı ehtiva etdiyinə dair nəticə çıxara bilməyəcək. (Aİ-nin 29-cu maddəsi işçi qrupu: Rəy 05/2014.) Qeyd etmək lazımdır ki, l-müxtəliflik özlüyündə identifikasiya üsulu deyil, lakin fərdin şəxsiyyəti yenidən müəyyən edilərsə, fərdin hansı növ həssas məlumatların aşkarlanmasına mane olur. (Cabrera 2017). l-müxtəlifliyə nümunə: qidalanma pozğunluğu klinikasının bütün stasionar xəstələrindən toplanmış məlumatlar respondentin son iki ildə intihara cəhd edib-etmədiyinə dair həssas məlumatları ehtiva edir (bəli/yox). Respondentlər müəyyən dolayı identifikasiya edən atributlar (yaş qrupu, cins, yaşayış şəhəri) baxımından ən azı üç nəfərdən ibarət qruplara k-anonimləşdirilir. Bu texnika bəzən 3-anonimlik adlanır (Cabrera 2017). İntihar cəhdləri ilə bağlı həssas məlumatları araşdırdıqda məlum olur ki, son iki ildə Tamperedən olan 25-34 yaşlı kişi respondentlərin hamısı intihara cəhd edib. Buna görə də, əgər hücum edən şəxs sorğu zamanı klinikada stasionar müalicə alan 25-34 yaşlı Tamperedən olan hər hansı bir kişinin kimliyini bilirsə, bu şəxsin intihara cəhd etdiyi dərhal aydın olur. =2), həm intihara cəhd edənlər, həm də qrupda olmayanlar olmalıdır. l-müxtəlif qrupda qrup əsasında intihara cəhdin avtomatik müəyyən edilməsi mümkün deyil. 2-müxtəliflik termini bəzən həssas atributun iki fərqli dəyərə malik olduğu yuxarıda təsvir edilmiş vəziyyətdə istifadə olunur (eyni yerdə). Nümunədə l-müxtəlifliyə nail olunmadığından, seçimlərdən biri fon dəyişənlərini (məsələn, yaşayış yerinin bələdiyyəsini yaşayış bölgəsinə) qabalaşdırmaq olardı.
Məlumatın orijinala mümkün qədər yaxın olması vacibdirsə, T-yaxınlığı istifadə edilə bilər. T-yaxınlığı o zaman əldə edilir ki, hər bir ekvivalentlik sinfi daxilində ən azı l fərqli dəyər var və hər bir dəyər hər bir atributun ilkin paylanmasını əks etdirmək üçün lazım olan qədər dəfələrlə təmsil olunur. t-yaxınlığı haqqında daha ətraflı məlumat üçün, məsələn, AB-nin 29-cu maddəsinə baxın: Rəy 05/2014.

Yüklə 213,77 Kb.

Dostları ilə paylaş:
1   ...   13   14   15   16   17   18   19   20   21




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin