475
Katta ma’lumotlardan foydalanishning asosiy muammolari, arxitekturasi va
algoritmlari
Xudoyberganova Indira Ilhomovna
Muhammad al-Xorazmiy nomidagi Toshkent axborot texnologiyalari universiteti
Annatatsiya:
Kletkali avtomatlar asosida katta hajmli ma’lumotlarni tahlil qilish va
qayta ishlash
masalalarini shakllantirish, ularda virtuallashtirish texnologiyalarinig
qo‘llanilishi, virtual resurslarini yaratish, hisoblash resurs va xizmatlarini taqdim etish
usul va modellari o‘rganildi va tavsiflandi, xususan ovozli ma’lumotlarni tahlil qilish va
qayta ishlash algoritmi va dasturiy ta’minoti ishlab chiqildi, ma’lumotlarni qayta ishlash
markazlarining resurs va xizmatlarini taqdim etishning konseptual modeli ishlab
chiqildi, uning samaradorligi hisoblash eksperimenti o‘tkazish yo‘ li bilan ko‘rsatib
berildi
Kalit so‘zlari: Big Data,
kletkali avtomat,
blokchayn, MapReduce.
Katta ma’lumotlarga qo‘shimcha ravishda, Big Data ni turli sohalarda amalga oshirishga
to‘sqinlik qiluvchi asosiy omillardan biri bu qayta ishlanadigan ma’lumotni tanlash muammosi,
ya’ni qaysi ma’lumotni olish, saqlash va tahlil qilish kerakligini
aniqlash va bu hisobga
olinmasligi kerak.
Yana bir katta ma’lumotlar muammosi axloqiy masaladir. Boshqacha qilib aytganda,
mantiqiy savol tug‘iladi: bunday ma’lumotlarni yig‘ish (ayniqsa foydalanuvchini bilmasdan)
shaxsiy hayotning chegaralarini buzish deb hisoblash mumkinmi?
Google
va
Yandex
qidiruv
tizimlarida
saqlanadigan
ma’lumotlar
IT gigantlarga doimiy ravishda o‘z xizmatlarini takomillashtirish, foydalanuvchilarga qulay va
yangi interfaol dasturlarni yaratishga imkon beradi. Buning uchun qidiruv tizimlari internetda
foydalanuvchi faoliyati to‘g‘risidagi ma’lumotlar, IP manzillari, joylashuv ma’lumotlari,
qiziqishlar va onlayn xaridlar, shaxsiy ma’lumotlar, pochta xabarlari va hokazolarni to‘playdi.
Bularning barchasi Internetda foydalanuvchi harakatlariga qarab kontekstual reklama namoyish
qilish imkonini beradi.
Bunday holda, odatda foydalanuvchilarning roziligi so‘ralmaydi va
476
o‘zingiz haqingizda qanday ma’lumotlarni taqdim etishni tanlash imkoniyati berilmaydi. Ya’ni,
sukut bo‘yicha, Big Data keyinchalik sayt ma’lumot serverlarida saqlanadigan barcha narsalarni
to‘playdi.
SHundan kelib chiqib, ma’lumotlarni saqlash va ulardan foydalanish xavfsizligi bilan
bog‘liq quyidagi muhim masala kelib chiqadi. Masalan, iste’molchilar o‘z ma’lumotlarini
avtomatik ravishda uzatadigan u yoki bu tahliliy platforma xavfsizmi? Bundan tashqari, ko‘plab
biznes vakillari katta hajmdagi ma’lumotlarni samarali boshqarish
va ularning yordami bilan
muayyan biznes muammolarini hal qilishga qodir yuqori malakali tahlilchilar va
marketologlarning etishmasligini ta’kidlamoqdalar.
Big Data ni amalga oshirishdagi barcha qiyinchiliklarga qaramay,
biznes ushbu
yo‘nalishga investitsiyalarni ko‘paytirishni rejalashtirmoqda. Gartner tadqiqotiga ko‘ra,
ommaviy axborot vositalari, chakana savdo,
telekommunikatsiya, bank va xizmat ko‘rsatish
kompaniyalari Big Data investitsiya sohalarida etakchi hisoblanadi.
Axborot xavfsizligi sohasida Big Data quyidagi muammolarga duch keladi:
- ma’lumotlarni himoya qilish va ularning yaxlitligini ta’minlash muammolari;
- maxfiy ma’lumotlarni buzish va yashirinish xavfi;
- maxfiy ma’lumotlarni noto‘g‘ri saqlash;
- ma’lumotni yo‘qotish xavfi, masalan, boshqa birovning zararli harakatlari tufayli;
- shaxsiy ma’lumotlardan uchinchi shaxslar tomonidan noto‘g‘ri foydalanish xavfi va
boshqalar.
Axborot xavfsizligi sohasida blokchayn echishga mo‘ljallangan katta ma’lumotlarning
asosiy muammolaridan biri hisoblanadi. Uning barcha asosiy tamoyillariga rioya qilinishini
ta’minlash, taqsimlangan ro‘yxatga olish texnologiyasi ma’lumotlarning
yaxlitligi va
ishonchliligini kafolatlashi mumkin va bitta nosozlik nuqtasi yo‘qligi sababli blokchayn axborot
tizimlarini barqaror qiladi. Tarqalgan ro‘yxatga olish texnologiyasi ma’lumotlarga bo‘lgan
ishonch muammosini hal qilishga yordam beradi, shuningdek, ularni umumiy ravishda baham
ko‘rish imkoniyatini beradi.
Tuzilmaydigan ma’lumotlar - bu oldindan belgilangan tuzilishga ega bo‘lmagan yoki
ma’lum tartibda tashkil etilmagan ma’lumotlar.
McKinseyning katta ma’lumotlar va tahlil qilish usullari:
• Crowdsourcing;
• Aralashtirish va ma’lumotlarni birlashtirish;
• Mashinasozlik;
477
• Sun’iy neyron tarmoqlari;
• Naqshni aniqlash;
• Bashoratli tahlil;
• Simulyasion modellashtirish;
• Mekansal tahlil;
• Statistik tahlil;
• Analitik ma’lumotlarni vizualizatsiya qilish.
Ma’lumotni qayta ishlashga imkon beradigan gorizontal kengayish katta ma’lumotlarni
qayta ishlashning asosiy prinsipidir. Ma’lumotlar hisoblash tugunlariga taqsimlanadi va ishlov
berish ishlashning yomonlashuvisiz amalga oshiriladi. McKinsey shuningdek qo‘llaniladigan
kontekstda aloqalarni boshqarish tizimlari va Business Intelligence ni o‘z ichiga oldi.
Texnologiya:
• noSQL;
• MapReduce;
• Hadoop;
• Uskuna echimlari.
Zamonaviy axborot tizimlarida foydalaniladigan axborot (ayniqsa video, audio
multimediali ma’lumotlar) hajmini jadal o‘sishi mutaxassislar oldiga ularni saqlash va
boshqarishning yangi murakkab masalalarini qo‘yadi. Hozirgi
kunda katta
hajmli ma’lumotlar
bilan ishlaydigan axborot tizimlarining
apparat platformasi sifatida, ma’lumotlarga parallel
ishlov berish va istalgancha axborot saqlash hajmini kengaytirish xususiyatiga ega bo‘lgan, ko‘p
protsessorlik
meynfreym serverlar
klassteridan foydalaniladi.
SHuningdek, katta hajmli
ma’lumotlarni kichik
masalalarga taqsimlash orqali ishlashga mo‘ljallangan MapReduce kabi
apparat dasturiy texnologiyalar ham mavjud.