Reja Big-Data texnologiyasi. Katta ma’lumotlarni tahlil qilish
3. Katta ma’lumotlar va ma’lumotlarni qayta ishlash. Katta ma’lumotlar mashinasi. Big Data deb nomlangan narsadan nimani kutish kerakligini tushunish uchun zamonaviy tor "IT" dunyoqarashi chegaralaridan chiqib, sodir bo’layotgan voqealarni kengroq tarixiy va texnologik retrospektivda ko’rishga harakat qilish kerak, masalan, uzoqroq tarixga ega texnologiyalar bilan o’xshashliklarni topishga harakat qiling. Axir biz o’z faoliyatimiz mavzusini texnologiya deb atab, unga texnologiya sifatida qarashimiz kerak. Sifat jihatidan yangi mahsulotlarni olish uchun deyarli ma’lum bo’lgan barcha moddiy texnologiyalar o’zlariga yoki boshqa tarkibiy qismlarga xos bo’lgan xom ashyoni qayta ishlash, qayta ishlash yoki yig’ish bilan qisqartiriladi - texnologik jarayonning kirish qismida ham, chiqishda ham bir narsa bor. Nomoddiy axborot texnologiyalarining o’ziga xos xususiyati shundaki, bu erda texnologik zanjir unchalik aniq emas, xomashyo nima, natija nima, kirishda nima va chiqishda nima olinishi aniq emas. Aytishning eng oson usuli shundaki, kirish xom ma’lumotlar, natijada foydali ma’lumotlar. Umuman olganda, bu deyarli to’g’ri, ammo ikkalasi o’rtasidagi munosabatlar juda murakkab; agar biz sog’lom pragmatizm darajasida qolsak, o’zimizni quyidagi fikrlar bilan cheklashimiz mumkin. Ma’lumotlar - bu turli shakllarda ifodalangan xom faktlar, ular o’zlari tarkibiga kiritilguncha, to’g’ri tartibga solinmaguncha va ishlov berish paytida buyurtma berilgunga qadar foydali ma’noga ega emaslar. Axborot inson tomonidan qayta ishlangan ma’lumotlarni tahlil qilish natijasida paydo bo’ladi, bu tahlil ma’lumotlarga ma’no beradi va ularni iste'molchi fazilatlari bilan ta’minlaydi. Ma’lumotlar - bu ma’lumotga aylantirilishi kerak bo’lgan tartibsiz faktlar. Yaqin vaqtgacha, haqida g’oyalar ma’lumotlarni qayta ishlash(ma’lumotlarni qayta ishlash) nisbatan oz miqdordagi ma’lumotlarga asoslangan algoritmik, mantiqiy yoki statistik operatsiyalarning organik doirasiga qadar qaynadi. Biroq, kompyuter texnologiyalari real dunyoga yaqinlashganda, real dunyodan ma’lumotlarni real dunyo haqidagi ma’lumotlarga aylantirish zarurati ortadi, qayta ishlangan ma’lumotlar kattalashadi va ishlash tezligiga talablar oshadi. Mantiqan, axborot texnologiyalari moddiy texnologiyalardan, kirish xom ma’lumotlaridan, chiqishda tuzilgan holda, inson idrok etishi uchun qulayroq shaklda, ulardan ma’lumot olish va aqlning kuchi bilan ma’lumotni foydali bilimga aylantirish shaklida ancha farq qilmaydi.
Kompyuterlarni hisoblash, birinchi ENIAC dasturini eslash - quroldan o’q otish ma’lumotlarini qayta ishlash va ularni artilleriya jadvallariga aylantirish qobiliyatlari uchun kompyuterlar deb atashdi. Ya’ni, kompyuter xom ma’lumotlarni qayta ishladi, foydali ma’lumotlarni chiqarib tashladi va foydalanishga yaroqli shaklda yozdi. Bizning oldimizda oddiy texnologik jarayondan boshqa narsa yo’q. Umuman aytganda, Axborot texnologiyalari singari atamalar o’rniga Ma’lumotlarni qayta ishlashni tez-tez ishlatish kerak. Axborot texnologiyalari umumiy qonunlarga bo’ysunishi kerak, unga muvofiq boshqa barcha texnologiyalar rivojlanadi va bu, avvalambor, qayta ishlangan xom ashyo miqdorining ko’payishi va qayta ishlash sifatining yaxshilanishi. Bu hamma narsa sodir bo’ladi, nima aniq xom ashyo bo’lib xizmat qiladi va buning natijasi nima bo’lishidan qat'i nazar, metallurgiya, neft kimyosi, biotexnologiya, yarimo’tkazgichli texnologiyalar va boshqalar. Umumiy narsa shundaki, texnologik yo’nalishlarning hech biri bir maromda rivojlanmaydi, erta yoki jadal rivojlanish va sakrash lahzalari kech paydo bo’ladi. Tashqi tomondan zarurat tug’ilganda va texnologiyalar ichida uni qondirish imkoniyati mavjud bo’lganda tez o’tishlar paydo bo’lishi mumkin. Kompyuterlarni vakuumli naychalarga qurish mumkin emas edi - va yarimo’tkazgichlar paydo bo’ldi, avtoulovlarga juda ko’p benzin kerak - yorilish jarayoni aniqlandi va bunday misollar juda ko’p. Shunday qilib, Big Data nomi bilan jiddiy o’zgarishlarga olib kelishi mumkin bo’lgan kompyuter texnologiyalarida paydo bo’layotgan sifatli o’tish mavjud, bu yangi sanoat inqilobi deb bejiz aytilmagan. Big Data - bu keyingi oqibatlarga olib keladigan yana bir texnik inqilob.
Ma’lumotlarni qayta ishlashda birinchi tajriba miloddan avvalgi 4-ming yillikda, piktografik yozuv paydo bo’lgan paytga to’g’ri keladi. O’sha paytdan boshlab ma’lumotlar bilan ishlashning bir necha asosiy yo’nalishlari rivojlandi, eng kuchlisi matn bo’lib qoldi va birinchi gil lavhalardan SSDgacha, miloddan avvalgi I ming yillikning o’rtalaridagi kutubxonalardan zamonaviy kutubxonalarga qadar bo’lgan, keyin turli xil matematik raqamli usullar paydo bo’lgan, papiruslardan Pifagor teoremasi va zamonaviy kompyuterlarda hisob-kitoblarni soddalashtirish uchun jadval texnikasi. Jamiyat rivojlanib borishi bilan jadvallarning har xil turlari to’plana boshladi, ular bilan ishlashni avtomatlashtirish tabulyatorlardan boshlandi va 19-20 asrlarda ma’lumotlarni yaratish va to’plashning ko’plab yangi usullari taklif qilindi. Katta hajmdagi ma’lumotlar bilan ishlash zarurligi uzoq vaqtdan beri tushunib etilardi, ammo mablag 'yo’q edi, shuning uchun Pol Otletning "Librarium" singari utopik loyihalari yoki 60 ming kishi-kalkulyatorlarning mehnatidan foydalangan holda ob-havoni bashorat qilishning ajoyib tizimi. Bugungi kunda kompyuter ma’lumotlar bilan ishlashning universal vositasiga aylandi, garchi u faqat hisob-kitoblarni avtomatlashtirish uchun o’ylangan bo’lsa ham. Ma’lumotlarni qayta ishlash uchun kompyuterdan foydalanish g’oyasi IBM da raqamli dasturlashtiriladigan kompyuterlar ixtiro qilinganidan o’n yil o’tgach paydo bo’lgan va undan oldin ma’lumotlarni qayta ishlash uchun Herman Xollerit ixtiro qilgan Unit Record shtamplash qurilmalari ishlatilgan. Ular Unit Records deb nomlangan, ya’ni bitta yozuv - har bir kartada biron bir ob'ektga tegishli barcha yozuvlar mavjud edi. Birinchi kompyuterlar Big Data bilan ishlashni bilmas edi - faqat disklar va lentalarda drayvlar paydo bo’lishi bilan, ular 60-yillarning oxirigacha mavjud bo’lgan kompyuterlarni hisoblash stantsiyalari bilan raqobatlasha olishdi. Aytgancha, relyatsion ma’lumotlar bazalarida Unit Record merosi aniq kuzatilgan.
Xom ma’lumotlar hajmining o’sishi, ularni real vaqtda tahlil qilish zaruriyati bilan birgalikda Big Data Analytics deb nomlangan muammoni samarali echadigan vositalarni yaratish va amalga oshirishni talab qiladi. Information Builders texnologiyalari har xil manbalardan olingan ma’lumotlar bilan real vaqtda, turli xil adapterlar va Enterprise Service Bus arxitekturasi tufayli ishlashga imkon beradi. WebFOCUS vositasi tezda ma’lumotlarni tahlil qilishga imkon beradi va natijalarni foydalanuvchi uchun eng yaxshi tarzda tasavvur qilish imkonini beradi. RSTAT texnologiyasiga asoslanib, Axborot quruvchilar taxminiy tahliliy mahsulotni yaratdilar, bu nima bo’lishini va nima zarurligini taxminiy bashorat qilishga imkon beradi. Rossiyaga biznes-razvedka texnologiyalari ham kirib keldi, ammo Rossiyaning bir nechta kompaniyalari prognozli tahlildan foydalanadilar, bu esa mahalliy korxonalarda ishbilarmonlik razvedkasidan foydalanish madaniyati pastligi va biznes foydalanuvchisi tomonidan mavjud tahlil usullarini qabul qilishning murakkabligi bilan bog’liq. Shuni inobatga olgan holda, bugungi kunda Information Builders kompaniyasi Gartner tahlilchilari foydalanishni eng oson deb baholagan mahsulotlarni taklif qilishmoqda.
Taxminan 1970 yildan keyin kompyuterlarning hisoblash qurilmalaridan ma’lumotlarni qayta ishlashning universal mashinalariga bosqichma-bosqich o’zgarishi bilan yangi atamalar paydo bo’ldi: ma’lumotlar mahsulot sifatida; ma’lumotlar bilan ishlash vositalari (ma’lumotlar vositasi); tegishli tashkilot tomonidan amalga oshiriladigan dasturlar (ma’lumotlar dasturi); ma’lumotlar fani; ma’lumotlar olimlari va hatto ma’lumotlar tarkibidagi ma’lumotlarni keng jamoatchilikka etkazadigan jurnalistlar (ma’lumotlar jurnalisti). Ma’lumotlarni qo’llash sinfining dasturlari bugungi kunda keng tarqalgan bo’lib, ular nafaqat ma’lumotlar ustida operatsiyalarni amalga oshiribgina qolmay, balki ulardan qo’shimcha qiymatlarni chiqarib, ma’lumotlar shaklida mahsulotlarni yaratadilar. Ushbu turdagi birinchi dasturlar orasida CDDB audio disk ma’lumotlar bazasi mavjud bo’lib, u an'anaviy ma’lumotlar bazalaridan farqli o’laroq, disklardan ma’lumotlarni olish va ularni metadata (disk nomlari, treklar va boshqalar) bilan birlashtirish orqali yaratilgan. Ushbu baza Apple iTunes xizmatining markazida joylashgan. Ma’lumotlar ilovasining rolini anglash ham Google-ning tijorat muvaffaqiyatining omillaridan biri bo’lib qoldi - ma’lumotlarga egalik huquqi ushbu kompaniyaga kerakli sahifadan tashqarida joylashgan ma’lumotlardan foydalangan holda ("PageRank" algoritmi) juda ko’p "bilish" imkonini beradi. Google to’g’ri imlo muammosini juda sodda tarzda hal qildi - buning uchun xatolar va tuzatishlar bazasi yaratiladi va foydalanuvchiga qabul qilishi yoki rad etishi mumkin bo’lgan tuzatishlar taklif etiladi. Shu kabi yondashuv nutqni kiritish paytida tanib olish uchun ishlatiladi - bu to’plangan audio ma’lumotlarga asoslanadi. 2009 yilda, cho’chqa grippi paytida, qidiruv tizimlariga berilgan so’rovlar tahlili epidemiyaning tarqalishini kuzatishga imkon berdi. Ko’pgina kompaniyalar (Facebook, LinkedIn, Amazon va boshqalar) nafaqat xizmatlar ko’rsatish, balki to’plangan ma’lumotlardan boshqa maqsadlarda ham foydalanib, Google yo’lidan bordilar. Ushbu turdagi ma’lumotlarni qayta ishlash qobiliyati aholi haqidagi yana bir fan - fuqarolar haqidagi fanning paydo bo’lishiga turtki berdi. Aholi ma’lumotlarini har tomonlama tahlil qilish natijasida olingan natijalar odamlarni ancha chuqurroq bilish va ma’muriy va biznes qarorlarini yanada oqilona qabul qilish imkonini beradi. Ma’lumotlar to’plami va ular bilan ishlash uchun vositalar endi infoware deb nomlanadi.
Ma’lumotlar omborlari, Internet-do’konlar, billing tizimlari yoki Big Data loyihalari deb tasniflanadigan har qanday boshqa platformalar odatda o’ziga xos xususiyatlarga ega va uning dizaynida asosiy narsa sanoat ma’lumotlari bilan integratsiya qilish, ma’lumotlarni to’plash jarayonlarini ta’minlash, ularni tashkil etish va tahlil qilish.
Oracle, to’liq dasturiy ta’minot to’plami va 18 Sun X4270 M2 serverlari bilan optimallashtirilgan apparatlarning Big Data zanjirini qo’llab-quvvatlash uchun o’rnatilgan Oracle Big Data Appliance echimini taqdim etdi. O’zaro bog’liqlik 40 Gbit / s tezlikdagi Infiniband va 10 Gigabitli chekilgan tarmoqqa asoslangan. Oracle Big Data Appliance Oracle ochiq manbali va xususiy dasturiy ta’minotning kombinatsiyasini o’z ichiga oladi. Key-value yoki NoSQL DBMS saqlash tizimlari bugungi kunda Big Data dunyosidagi asosiy tizim sifatida tan olingan va ma’lumotlarni tezkor to’plash va ularga kirish uchun optimallashtirilgan. Oracle Big Data Appliance uchun bunday DBMS sifatida, Oracle Berkley DB bazasida ma’lumotlar bazasi topologiyasi to’g’risidagi ma’lumotlarni saqlaydigan, ma’lumotlarni tarqatadigan va eng kam vaqtni qaerga joylashtirish mumkinligini tushunadigan DBMS ishlatiladi. Orado Loader for Hadoop yechimi MapReduce texnologiyasidan foydalanib Oracle 11g-da yuklash va tahlil qilish uchun optimallashtirilgan ma’lumotlar to’plamlarini yaratadi. Ma’lumotlar tizim manbalaridan foydalanishni minimallashtiradigan Oracle DBMS-ning "native" formatida hosil bo’ladi. Formatlangan ma’lumotlar klasterda qayta ishlanadi, so’ngra ma’lumotlarga an'anaviy SQL buyruqlari yoki biznes-razvedka vositalari yordamida an'anaviy RDBMS foydalanuvchilari ish stantsiyalaridan kirish mumkin. Hadoop ma’lumotlari va Oracle DBMS integratsiyasi Oracle Data Integrator echimi yordamida amalga oshiriladi. Oracle Big Data Appliance Apache Hadoop-ning, shu jumladan HDFS va boshqa tarkibiy qismlarning ochiq manbali tarqatilishi, xom ma’lumotlarni tahlil qilish uchun R statistik to’plamining ochiq manbali tarqatilishi va Oracle Enterprise Linux 5.6 bilan ta’minlanadi. Hadoop-dan allaqachon foydalanadigan korxonalar HDFS-da joylashtirilgan ma’lumotlarni tashqi jadvallarning funktsional imkoniyatlaridan foydalangan holda Oracle DBMS-ga birlashtirishi mumkin va ma’lumotlar bazasini zudlik bilan ma’lumotlar bazasiga yuklashning hojati yo’q - tashqi ma’lumotlar SQL buyruqlari yordamida Oracle ma’lumotlar bazasining ichki ma’lumotlari bilan birgalikda ishlatilishi mumkin. Infiniband orqali Oracle Big Data Appliance va Oracle Exadata o’rtasidagi ulanish ommaviy qayta ishlash yoki SQL so’rovlari uchun yuqori tezlikda ma’lumotlarni uzatishni ta’minlaydi. Oracle Exadata ma’lumotlar omborida va tranzaktsiyalarni qayta ishlashning onlayn dasturlarida kerakli ishlashni ta’minlaydi. Yangi Oracle Exalytics mahsuloti biznes-razvedka vazifalarini hal qilishda ishlatilishi mumkin va Oracle Business Intelligence Enterprise Edition-ni xotirada qayta ishlash bilan ishlatish uchun optimallashtirilgan.
"Data Science nima?" O’Reilly Radar Report seriyasida nashr etilgan Mayk Lukidis shunday deb yozgan edi: "Kelajak ma’lumotni mahsulotga aylantira oladigan kompaniyalar va odamlarga tegishli". Ushbu bayonot Rottsildning taniqli "Axborotga egalik qiluvchi - u dunyoga egalik qiladi" degan so’zlarini eslaydi, u Napoleonning Vaterloodagi mag’lubiyati to’g’risida boshqalardan oldinroq bilib, qimmatli qog’ozlar qallobligini aylantirganda aytgan. Bugungi kunda ushbu aforizmni qayta ifodalashga arziydi: "Dunyo ularni tahlil qilish uchun ma’lumotlar va texnologiyalarga egalik qiladi". Biroz keyinroq yashagan Karl Marks sanoat inqilobi odamlarni ikki guruhga - ishlab chiqarish vositalariga egalik qiluvchi va ular uchun ishlaydiganlarga ajratganligini ko’rsatdi. Umuman olganda, hozirda shunga o’xshash narsa yuz bermoqda, ammo endi mulkchilik va funktsiyalarni taqsimlash sub'ekti moddiy qadriyatlarni ishlab chiqarish vositasi emas, balki ma’lumotlar va ma’lumotlarni ishlab chiqarish vositasidir. Va bu erda muammolar paydo bo’ladi - ma’lumotlarga ega bo’lish moddiy boyliklarga ega bo’lishdan ko’ra ancha qiyin ekanligi aniqlanadi, birinchisi oddiygina takrorlanadi va ularni o’g’irlash ehtimoli moddiy boyliklarga qaraganda ancha yuqori. Bundan tashqari, huquqiy razvedka texnikasi mavjud - etarli hajm va tegishli tahlil usullari bilan siz yashiringan narsani "hisoblashingiz" mumkin. Shuning uchun hozirda Big Data Analytics-ga (yon panelga qarang) va undan qanday himoyalanishga katta ahamiyat berilmoqda.
Ma’lumotlar bilan ishlaydigan turli xil tadbirlar va, avvalambor, ma’lumotni yig’ib olish usullari haqidagi ma’lumotlar, hech bo’lmaganda rus tiliga tarjima qilishda biroz yo’naltiruvchi ma’lumotlar fani deb ataladi, chunki bu ba’zi bir yangi akademik fanlarga emas, balki fanlararo to’plamga tegishli. bilimlarni olish uchun zarur bo’lgan bilim va ko’nikmalar. Bunday to’plamning tarkibi ko’p jihatdan sohaga bog’liq, ammo ma’lumot olimlari deb ataladigan mutaxassislar uchun ozmi-ko’pmi umumlashtirilgan malaka talablarini ajratish mumkin. Buni ilgari AQSh razvedka xizmatlaridan biridagi terroristik tahdidlar to’g’risidagi ma’lumotlarni tahlil qilgan Drew Konvey amalga oshirgan. Uning tezislarining asosiy tezislari har chorakda AQSh Markaziy razvedka boshqarmasi va ilmiy tashkilotlar o’rtasida vositachi sifatida ishlaydigan In-Q-Tel tomonidan nashr etiladigan IQT Quarterly jurnalida chop etilgan. Konuey o’z modelini ma’lumot olimi bo’lish uchun o’zlashtirilishi va egallashi kerak bo’lgan uchta bilim va ko’nikmalarni ifodalovchi Venn diagrammasi (rasmga qarang) sifatida tasvirladi. Xakerlik mahoratini zararli harakatlar deb tushunmaslik kerak, bu holda ma’lum bir vositalar to’plamini egallashni Herkule Puaro singari maxsus analitik fikrlash bilan birlashtirish shunday deyiladi yoki ehtimol bu qobiliyatni Sherlok Xolmsning deduktiv usuli deb atash mumkin. Ajoyib detektivlardan farqli o’laroq, siz hali ham bir qator matematik sohalarda mutaxassis bo’lishingiz va mavzuni tushunishingiz kerak. Mashinani o’rganish dastlabki ikkita maydonning kesishmasida, ikkinchi va uchinchi chorrahada - an'anaviy usullar bilan shakllanadi. Uchinchi kesishish sohasi spekulyativlik tufayli xavfli, matematik usullarsiz ob'ektiv ko’rinish bo’lmaydi. Uch zonaning ham kesishmasida ma’lumotlar fani yotadi. Konvey diagrammasi soddalashtirilgan rasmni beradi; birinchidan, xakerlar va matematik doiralar kesishmasida nafaqat mashina o’qitish yotadi, ikkinchidan, so’nggi doiraning kattaligi kattaroq, bugungi kunda u ko’plab fanlarni va texnologiyalarni o’z ichiga oladi. Mashinada o’rganish - bu o’rganishga qodir algoritmlarni tuzish bilan bog’liq bo’lgan sun'iy intellektning faqat bitta yo’nalishi; u ikkita kichik maydonga bo’linadi: presedent yoki induktiv ta’lim, bu ma’lumotlarning yashirin naqshlarini ochib beradi va ekspert bilimlarini rasmiylashtirishga qaratilgan deduktiv. Mashinada o’qitish, shuningdek, oldindan tayyorlangan o’quv ma’lumotlari to’plamlariga asoslangan tasniflash usullari o’rganilganda va ichki namunalarni klasterli tahlil qilish orqali qidirib topilsa, nazoratsiz o’rganishga "Nazoratli ta’lim" bo’linadi. Shunday qilib, Big Data bu spekulyativ fikrlash emas, balki texnik inqilobning engib chiqadigan ramzi. Katta ma’lumotlar bilan analitik ishlashga bo’lgan ehtiyoj IT-sanoatning yuzini sezilarli darajada o’zgartiradi va yangi dasturiy ta’minot va apparat platformalarining paydo bo’lishini rag’batlantiradi. Hozirgi kunda ham katta hajmdagi ma’lumotlarni tahlil qilishda eng ilg’or usullardan foydalanilmoqda: sun'iy neyron tarmoqlar - biologik neyron tarmoqlarni tashkil etish va ishlash printsipi asosida qurilgan modellar; bashoratli tahlil, statistika va tabiiy tilni qayta ishlash usullari (sun'iy intellekt va matematik tilshunoslik sohalari, tabiiy tahlillarni kompyuterda tahlil qilish va sintez qilish muammolarini o’rganish). Inson mutaxassislarini jalb qiladigan usullardan ham foydalaniladi, yoki kraudsorsing, A / B sinovlari, hissiyotlarni tahlil qilish va boshqalar. Natijalarni tasavvur qilish uchun taniqli usullardan foydalaniladi, masalan, bulut bulutlari va butunlay yangi Klastergram, Tarix Oqimi va Mekansal Axborot Oqimi. Big Data texnologiyalari tomonidan ularni tarqatilgan fayl tizimlari Google File System, Cassandra, HBase, Luster va ZFS, MapReduce va Hadoop dastur tuzilmalari va boshqa ko’plab echimlar qo’llab-quvvatlaydi. Mutaxassislarning fikriga ko’ra, masalan, McKinsey Institute, Big Data ta’siri ostida ishlab chiqarish, sog’liqni saqlash, savdo, ma’muriyat va individual harakatlarning monitoringi sohalari eng katta o’zgarishlarga duch keladi.