Reja Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish
Katta ma’lumotlar va biznes Bir yildan kam vaqt o’tgach, Big Data atamasi etakchi biznes nashrlarining sahifalarida paydo bo’ldi, ammo bu erda mutlaqo boshqa metafora ishlatilgan. Big Data mineral resurslar bilan taqqoslanadi - yangi neft (yangi neft), oltin zirh (oltin shoshilinch), ma’lumotlar qazib olish (ma’lumotlar qazib olish), bu maxfiy ma’lumot manbai sifatida ma’lumotlarning rolini ta’kidlaydi; tabiiy ofatlar bilan - ma’lumotlar tornado (ma’lumotlar bo’roni), ma’lumotlar to’foni (ma’lumotlar toshqini), ma’lumotlarning to’lqin to’lqini (ma’lumotlar toshqini), ularni tahdid sifatida ko’rish; sanoat ishlab chiqarish bilan aloqani ushlab turish - ma’lumotlar egzozi, o’t o’chirish shnuri, sanoat inqilobi Biznesda, ilm-fan singari, katta hajmdagi ma’lumotlar ham mutlaqo yangi narsa emas - ular uzoq vaqtdan beri katta hajmdagi ma’lumotlar bilan ishlash zarurligi haqida gaplashib kelmoqdalar, masalan, radiochastota identifikatsiyasi (RFID) va ijtimoiy tarmoqlarning tarqalishi bilan bog’liq va h.k. va fanda unga nima bo’layotganini aniqlash uchun faqat yorqin metafora etishmadi. Shuning uchun 2010 yilda Big Data toifasiga kiritilganligini da’vo qilgan birinchi mahsulotlar paydo bo’ldi - allaqachon mavjud bo’lgan narsalar uchun mos nom bor edi. 2011 yilgi yangi texnologiyalarning holati va istiqbollarini tavsiflovchi Hype Cycle versiyasida Gartner tahlilchilari yana bitta pozitsiyani taqdim etgani katta ma’lumotlar va ekstremal axborotni qayta ishlash va boshqarish tegishli echimlarni ikki yildan besh yilgacha ommaviy ravishda amalga oshirish davrini baholash bilan.
Nima uchun Big Data muammoga duch kelmoqda? Big Data atamasi paydo bo’lgandan keyin ham Big Data-ning biznesdagi o’rni noaniq bo’lib qolmoqda, ular shunchaki "Katta ma’lumotlar muammosi" haqida gapirishlari bejiz emas, shunchaki muammo emas, balki qolgan hamma narsa ham noto’g’ri aniqlangan. Ko’pincha, muammo sodda qilib, Mur qonuni singari talqin qilinmoqda, faqat bitta farq shundaki, bu holda biz ma’lumotlarning yiliga ikki baravar ko’payishi yoki giperbolizatsiya, deyarli tabiiy ofat sifatida namoyon bo’lish fenomeniga duch kelmoqdamiz, bu shoshilinch ravishda qandaydir tarzda hal qilinishi kerak. Haqiqatan ham ma’lumotlar ko’payib bormoqda, ammo bularning barchasi muammoning hech qanday tashqi tomonga ega emasligini e'tibordan chetda qoldirmaydi, chunki bu juda ko’p miqdordagi qulab tushgan ma’lumotlar emas, balki eski usullarning yangi jildlarga bardosh bera olmasligi va eng muhimi, biz o’zlari tomonidan yaratilgan. G’alati nomutanosiblik mavjud - ma’lumotlarni ishlab chiqarish qobiliyati ularni qayta ishlash qobiliyatidan kuchliroq. Ushbu buzilishning sababi, ehtimol, 65 yillik kompyuter tarixida biz ma’lumotlar nima ekanligini va ularni qayta ishlash natijalari bilan qanday bog’liqligini hali tushunmaganligimizdir. Asrlar davomida matematiklar o’zlarining fanlari bo’yicha raqamlar va sanoq tizimlari kabi asosiy tushunchalar bilan shug’ullanib, faylasuflarni bunga jalb qilishgani ajablanarli emas va bizning holatlarimizda ma’lumotlar va ma’lumotlar hech qanday ahamiyatsiz narsalarga e'tibor berilmaydi va intuitiv in'ikosning rahm-shafqatiga topshiriladi. Shunday qilib, 65 yil davomida ma’lumotlar bilan ishlash texnologiyalari juda tez rivojlandi va kibernetika va axborot nazariyasi juda rivojlanmadi, bu 50-yillarda saqlanib qoldi, lampalar kompyuterlari faqat hisoblash uchun ishlatilgan. Darhaqiqat, Big Data atrofidagi hozirgi shov-shuv ehtiyotkorlik bilan, shubhali tabassumni keltirib chiqaradi.
Big dataning o’'lchash va saqlash darajalari. Bulut, katta ma’lumotlar, tahlillar - zamonaviy ITning uchta omillari nafaqat o’zaro bog’liq, balki bugungi kunda ular bir-birisiz mavjud bo’lmaydilar. Bulutli saqlash va bulutli hisoblashlarsiz Big Data bilan ishlash mumkin emas - bulutli texnologiyalarning paydo bo’lishi nafaqat g’oya shaklida, balki allaqachon tugallangan va amalga oshirilgan loyihalar ko’rinishida Big Data analitikasiga bo’lgan qiziqishning ortishi spiralining yangi turini boshlash uchun omil bo’ldi. Agar umuman olganda sohaga ta’siri haqida gapiradigan bo’lsak, bugungi kunda masshtab saqlash tizimlariga talablarning oshishi aniq bo’ldi. Bu haqiqatan ham zarur shart - axir qaysi analitik jarayonlar uchun u yoki bu ma’lumotlarga ehtiyoj borligini va mavjud xotira qanchalik intensiv yuklanishini oldindan taxmin qilish qiyin. Bundan tashqari, har ikkala vertikal va gorizontal miqyoslash talablari bir xil ahamiyatga ega bo’ladi. Saqlash tizimlarining yangi avlodida Fujitsu miqyosi va darajali saqlash jihatlariga katta e'tibor berdi. Amaliyot shuni ko’rsatadiki, bugungi kunda tahliliy vazifalarni bajarish uchun tizimlarni katta yuklash talab etiladi, ammo biznes barcha xizmatlar, dasturlar va ma’lumotlarning o’zi doimo mavjud bo’lishini talab qiladi. Bundan tashqari, bugungi kunda analitik tadqiqotlar natijalariga qo’yiladigan talablar juda yuqori - malakali, to’g’ri va o’z vaqtida olib borilgan tahliliy jarayonlar umuman biznes natijalarini sezilarli darajada yaxshilashi mumkin. – Aleksandr Yakovlev (Alexander.Yakovlev@ts.fujitsu.com), Fujitsu mahsulot marketing bo’yicha menejeri (Moskva). Ma’lumotlar va ma’lumotlarning tadqiqot mavzusi sifatida ahamiyatini inobatga olmasdan, ehtiyojlar o’zgargan bir paytda, kompyuterlarda hisoblash yuki ma’lumotlar bo’yicha bajariladigan ishlarning boshqa turlariga qaraganda ancha kam bo’lib chiqqanda, xuddi shu portlash sodir bo’ldi va bu harakatlarning maqsadi mavjud ma’lumotlar to’plamidan yangi ma’lumotlar va yangi bilimlarni olishda. Shuning uchun Big Data muammosini "ma’lumotlar - ma’lumot - bilim" zanjiri zanjirlarini tiklashdan tashqarida hal qilish haqida gapirish ma’nosizdir. Ma’lumotlar ma’lumot olish uchun qayta ishlanadi, bu etarli bo’lishi kerak, shunda odam uni bilimga aylantirishi mumkin.
So’nggi o’n yilliklarda xom ma’lumotlarni foydali ma’lumotlar bilan bog’lash bo’yicha jiddiy ish olib borilmadi va biz odatdagidek Klod Shannonning axborot nazariyasi deb ataydigan narsa signallarni uzatishning statistik nazariyasidan boshqa narsa emas va odamlar tomonidan qabul qilinadigan ma’lumotlarga aloqasi yo’q. Muayyan nuqtai nazarlarni aks ettiruvchi ko’plab alohida nashrlar mavjud, ammo to’liq zamonaviy axborot nazariyasi mavjud emas. Natijada, mutaxassislarning aksariyati ma’lumot va ma’lumotni umuman farqlamaydilar. Ma’lumotlarning ko’pligi yoki ko’pligi haqida hamma shunchaki ta’kidlaydilar, ammo hech kim aniq nima borligi, paydo bo’lgan muammoni qanday hal qilish haqida etuk tasavvurga ega emas - va buning hammasi ma’lumotlar bilan ishlashning texnik imkoniyatlari ulardan foydalanish qobiliyatining rivojlanish darajasidan ancha ustun bo’lganligi bilan bog’liq. Faqat bitta muallif, Web 2.0 Journal muharriri Dion Xinchkliff Big Data tasnifiga ega, bu bizga texnologiyani Big Data-dan ishlashni kutish natijasi bilan bog’lashga imkon beradi, ammo bu qoniqarli emas. Xinchliff Big Data-ga yondashuvlarni uch guruhga ajratadi: Tez ma’lumotlar, ularning hajmi terabaytlarda o’lchanadi; Big Analytics - Petabayt ma’lumotlari va Deep Insight - Exabayt, zettabayt. Guruhlar bir-birlari orasida nafaqat ishlaydigan ma’lumotlar miqdori, balki ularni qayta ishlash uchun echimning sifati bilan ham ajralib turadi. Tez ma’lumotlarga ishlov berish yangi bilimlarni o’zlashtirishni anglatmaydi, uning natijalari apriori bilimlari bilan o’zaro bog’liq va ba’zi jarayonlarning qanday davom etayotganligini baholashga imkon beradi, bu sizga nima bo’layotganini yaxshiroq va batafsilroq ko’rish, ba’zi farazlarni tasdiqlash yoki rad etish imkonini beradi. Hozirgi kunda mavjud bo’lgan texnologiyalarning faqat ozgina qismi "Fast Data" vazifalarini hal qilish uchun javob beradi; ba’zi saqlash texnologiyalari (Greenplum, Netezza, Oracle Exadata, Teradata, Verica va kdb kabi DBMS mahsulotlari). Ushbu texnologiyalarning tezligi ma’lumotlar hajmining o’sishi bilan sinxronlashtirilishi kerak. Big Analytics tomonidan hal qilingan vazifalar sezilarli darajada farq qiladi va nafaqat miqdoriy, balki sifat jihatidan ham mos keladi va tegishli texnologiyalar yangi bilimlarni olishga yordam berishi kerak - ular ma’lumotlarda qayd etilgan ma’lumotlarni yangi bilimlarga aylantirishga xizmat qiladi. Biroq, ushbu o’rta darajada echimlar yoki analitik tizimning har qanday avtonom harakatlarini tanlashda sun'iy intellektning mavjudligi taxmin qilinmaydi - bu "o’qituvchi bilan o’rganish" tamoyili asosida qurilgan. Boshqacha qilib aytganda, uning barcha analitik salohiyati o’quv jarayonida unga sarflanadi. Eng aniq misol - Jeopardy o’ynaydigan mashina!. Bunday analitiklarning klassik vakillari MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache va Mahout.
Eng yuqori darajadagi Deep Insight nazoratsiz o’rganishni va zamonaviy tahlil usullaridan hamda turli xil vizualizatsiya usullaridan foydalanishni o’z ichiga oladi. Ushbu darajada, oldindan noma’lum bo’lgan bilimlarni va naqshlarni kashf etish mumkin.