Katta hajmli ma’lumotlarning funksiyalari va vazifalari
Big Data haqida gapirganda, avval yoritilgan VVV qoidasini esga
olish oʻrinli – katta hajmli ma’lumotlar ega boʻlishi kerak boʻlgan uchta
belgi yoki xususiyatlar
60
:
1. Volume (Hajm) - hajm (ma’lumotlar hujjatlarning fizik hajmi
bilan oʻlchanadi).
2. Velocity (Tezlik) - ma’lumotlar doimiy ravishda yangilanadi, bu
esa doimiy ishlov berishni talab qiladi.
3. Variety (Xilma-xillik) - xilma xil ma’lumotlar turli xil formatlarga
ega boʻlishi mumkin, tizimlangan yoki tizimlanmagan boʻladi.
Big Data faqatgina tadqiqot ob’yekti emas, shuningdek, qayta ishlash
texnologiyalarini ham anglatadi.
Big data oʻz mohiyatidan kelib chiqqan holda bir qator funktsiya va
vazifalarni bajaradi.(3.2-jadval)
3.2-jadval
Big Dataning
funksiyalari va vazifalari
Funksiyalari
Vazifalari
Big Data – qayta ishlanmagan
ma’lumotlar toʻplami
Doimiy
ravishda
yangilanib
turadigan
katta
hajmdagi
ma’lumotlarni saqlash va boshqarish
Data mining – ma’lumotlarni qayta
ishlash va tizimlashtirish jarayoni,
qoniniyatlarni aniqlash uchun tahlil
bosqichi
Umumiy mahrajga kelish uchun turli
xil ma’lumotlarning tizimlashtirish,
yashirin va noaniq bogʻliqliklarni
qidirish
Machine learning – tahlil jarayonida
aniqlangan
bogʻliqlik
asosida
mashinali oʻqish jarayoni
Qayta ishlangan va tizimlashtirilgan
ma’lumotlarga asoslanib tahlil qilish
va prognozlash
60
Doug Laney. 3D Data Management: Controlling Data Volume, Velocity, and Variety (ing.). Meta
Group (6 February 2001)
171
2007 yilda mashinali oʻqishning yangi turi – “Deep learning”
(chuqurlashtirilgan oʻqish) ommalashib ketdi. Bu neyron tarmoqlarini
cheklangan sun’iy ong darajasiga koʻtarish imkonini berdi. An’anaviy
mashinali oʻqish jarayonida kompyuter dasturchilarning misollari orqali
tajribani oʻrgangan boʻlsa, “Deep Learning”da tizim oʻzi koʻp bosqichli
hisob-kitoblarni yaratadi va xulosalar chiqaradi.
Katta hajmli ma’lumot manbalariga quyidagilar kiradi:
Internet – ijtimoiy tarmoqlar, bloglar, OAV, forumlar, saytlar,
buyumlar Interneti (IoT).
Korporativ ma’lumotlar – tranzaktsion biznes ma’lumotlar,
arxivlar, ma’lumotlar bazalari.
Qurilmalardan oʻqishlar – datchiklar, asboblar, shuningdek,
meteorologik ma’lumotlar, uyali aloqa ma’lumotlari va boshqalar.
Shu bilan birga, katta hajmli ma’lumotlarning yangi, ilgari mavjud
boʻlmagan ma’lumotlarni birlashtiradigan va takrorlanuvchilarini chiqarib
tashlaydigan alohida turlari mavjud.
Toʻgʻri ishlashi uchun katta hajmli ma’lumotlar tizimi muayyan
printsiplarga asoslanishi kerak:
Gorizontal kengaytirilishi – katta ma’lumotlarni qayta
ishlaydigan har qanday tizim kengaytirilishi kerak. Agar ma’lumotlar
hajmi ikki baravar koʻpaysa, unda klasterdagi serverlar soni ham ikki
baravar koʻpaytirilishi kerak.
Kamchiliklarga bardoshlilik – bu muqarrar ravishda ishdan
chiqadigan koʻplab mashinalarning majburiy shartidir.
Ma’lumotlar joylashuvi – xarajatlarni kamaytirish uchun
ma’lumotlar saqlanadigan serverning oʻzida qayta ishlanishi kerak.
Katta hajmli ma’lumotlar moliya va tibbiyot sohalarida, yuqori
texnologiyali va Internet kompaniyalarida, shuningdek, davlat sektorida
faol qoʻllaniladi.
Biznesda katta hajmli ma’lumotlar
Katta hajmli ma’lumotlar bilan shugʻullanadiganlarni shartli ravishda
bir necha guruhga boʻlish mumkin:
Infratuzilma ta’minotchilari – ular ma’lumotlarni saqlash va
qayta ishlash muammolarini hal qilishadi. Masalan: IBM, Microsoft,
Oracle, Sap va boshqalar.
172
Ma’lumot tarqatuvchilar (Datamaynerlar) mijozlarga qimmatli
ma’lumotlarni olishga yordam beradigan algoritm ishlab chiquvchilardir.
Ular orasida: Yandex Data Factory, “Algomost”, Glowbyte Consulting,
CleverData va boshqalar bor.
Tizim integratorlari – mijoz tomonidan katta hajmli
ma’lumotlarni tahlil qilish tizimlarini amalga oshiradigan kompaniyalar.
Masalan: “Force”, “Croc” va boshqalar.
Iste’molchilar – dasturiy va apparat qurilmalarini sotib
oladigan
va
maslahatchilarga
algoritmlarni
buyurtma
qiladigan
kompaniyalar. Bularga Rossiyada Sberbank, Gazprom, MTS, Megafon va
boshqa moliya, telekommunikatsiya sohalardagi kompaniyalar kiradi.
Tayyor xizmatlarni ishlab chiquvchilar – katta hajmli
ma’lumotlarga kirish asosida tayyor yechimlarni taklif qilishadi. Ular keng
foydalanuvchilar uchun Big Data imkoniyatlarini ochib beradi.
Yirik ma’lumotlarning asosiy yetkazib beruvchilari qidiruv tizimlari
hisoblanadi. Ular juda katta miqdordagi ma’lumotlarga kirish imkoniyatiga
va qoʻshimcha ravishda yangi xizmatlarni yaratish uchun yetarli texnologik
bazaga ega.
Google
2012 yilda kompaniya Google paytdan boshlab, real vaqt rejimida
Big Datani tahlil qilish uchun BigQuery bulutli xizmatni ishga tushirgan.
Bir yil oʻtgach, u hisoblagichning pulli versiyasi boʻlgan Google Analytics
Premiumga qoʻshildi. Keyinroq, Google kengaytiriladigan, bulutga
asoslangan ma’lumotlar bazasi xizmati – Cloud Bigtable dasturini taqdim
etdi.
Yandeks
Kompaniyaning aksariyat xizmatlari katta hajmli ma’lumotlarni
tahlil qilishga asoslangan. Jumladan, “Paleks” neyron tarmoqlariga
asoslangan qidiruv algoritmi, mashinali tarjima qilish, spam-filtrlash,
kontekstli reklama maqsadlarida targeting, tirbandlik va ob-havoni prognoz
qilish, nutq va tasvirni aniqlash, haydovchisiz avtomashinani boshqarish
kabilarni misol keltirish mumkin.
Bir muncha vaqt davomida Yandexda alohida kompaniyalar –
Yandex Data Factory mavjud boʻlib, u yirik kompaniyalarga konsalting
173
xizmatlarini koʻrsatgan. Ammo keyinchalik ushbu tuzilma qidiruv boʻlimi
tarkibiga kiritildi.
Mail.Ru group
“Mail.ru Reyting” veb-tahlil tizimi kata hajmli ma’lumotlarni qayta
ishlash texnologiyalaridan foydalangan birinchi loyihadir. Endilikda Big
Data kompaniyaning deyarli barcha xizmatlarida qoʻllaniladi –
Target.Mail.ru, “Mail.ru” pochta, “Odnoklassniki”, “Moy Mir”, “Mail.ru”
qidiruv tizimi va boshqalar.
Katta hajmli ma’lumotlar tahlilidan foydalanib, Mail.ru reklamalarni
targetlaydi, qidiruvlarni optimallashtiradi, texnik yordamni tezlashtiradi,
spamni filtrlaydi, foydalanuvchi xatti-harakatlarini oʻrganadi va hokazo.
Rambler
Dastlab, media-xolding katta hajmli ma’lumotlarni faqat qidirish
uchun ishlatgan boʻlsa, keyinchalik kompaniyada datamayning yoʻnalishi
paydo boʻldi. Rambler tarkibni shaxsiylashtirish, botlar va spamlarni
blokirovka qilish va tabiiy tilni qayta ishlash uchun Big data
texnologiyalaridan foydalanadi.
Biznesda Big Data texnologiyasidan foydalanishning afzalliklari
Rejalashtirish soddalashtiriladi;
Yangi loyihalarni ishga tushirish tezligi ortadi;
Loyihaning talabgirligi ortadi;
Foydalanuvchilarning qoniqish darajasini baholash imkoniyati
paydo boʻladi;
Maqsadli auditoriyangizni topish va jalb qilish osonroq;
Mijozlar va pudratchilar bilan oʻzaro munosabatlar tezlashadi;
Ta’minot zanjiridagi integratsiyalar optimallashadi;
Mijozlarga xizmat koʻrsatish sifati va oʻzaro ta’sir tezligi oshib
boradi;
Joriy mijozlarning sodiqligi ortib boradi.
Hozirda MDHda katta hajmli ma’lumot texnologiyalariga qiziqish
oʻsib bormoqda, ammo Big Data ham drayverlariga, ham cheklovlarga ega.
Dostları ilə paylaş: |