O‘zbekiston respublikasi oliy ta’lim, fan va innovatsiyalar vazirligi guliston davlat universiteti tabiiy fanlar fakulteti, Bioinformatika fanidan kurs ishi mavzu: Arxivli malumotlar bazalari va ular bilan tanishish


Katta ma’lumotlarni qayta ishlash texnologiyalari(Big Data)



Yüklə 0,75 Mb.
səhifə5/9
tarix03.10.2023
ölçüsü0,75 Mb.
#151901
1   2   3   4   5   6   7   8   9
Kurs ishi Nazarova Sevara

1.3 Katta ma’lumotlarni qayta ishlash texnologiyalari(Big Data)
Katta ma’lumotlarni o‘rganish va tahlil qilish rivojlanish va kengayishda davom etadigan murakkab va juda muhim yo‘nalishdir. Har yili inson tobora ko‘proq ma’lumot ishlab chiqaradi va uning asosiy qismi tartibsiz shaklda bo‘ladi. Shu turdagi ma’lumotlarni tahlil qilishni o‘rganish, alohida ma’lumotlar to‘plamlari orasidagi aloqalarni aniqlash davrimizning eng muhim vazifasidir. IBM korporatsiyasi ushbu vazifaning muhimligini tushunib, katta ma’lumotlar bilan ishlash vositalarini ishlab chiqishda BIG DATA sohasida katta ilmiy ish olib bormoqda.
Katta ma’lumotlar bilan ishlash deyarli barcha sohalarda zarur: fan, tibbiyot, biznes. Big Data ni qayta ishlash ayniqsa biznes yechimlari uchun foydalidir. Ushbu sohada saralanmagan ma’lumotlarni tezda qayta ishlash qobiliyati muvaffaqiyat omillaridan biridir. Axir, bu sizning xaridorlaringiz, potentsial xaridorlaringiz yoki iste’molchilar haqida ma’lumotlarning keng namunalarini olish, bozor tendentsiyalari va uning turli tarmoqlari dinamikasi to‘g‘risida raqobatchilardan oldinroq o‘rganish imkoniyatini beradi. Boshqacha qilib aytganda, katta ma’lumotlarni qayta ishlash yangi mijozlar va yuqori daromad olish imkonini beradi.“BIG DATA”iborasi 2008-yilda Klifford Linchning yengil qo‘li bilan paydo bo‘ldi. Naturejurnalining maxsus sonida mutaxassis axborot oqimlarining portlovchi o‘sishini –BIG DATA deb atadi. Unda u kuniga 150 Gb dan ortiq bo‘lgan har qanday ma’lumotlarning massivlarini kiritdi. 2011-yilgacha katta ma’lumot texnologiyalari faqat ilmiy tahlil sifatida ko‘rib chiqilgan va amaliy yechim topmagan. Biroq, ma’lumotlar miqdori keskin o‘sib bordi va juda ko‘p miqdordagi tartiblanmagan ma’lumotlar muammosi 2012-yil boshida dolzarb bo‘lib qoldi. BIG DATA ga bo‘lgan qiziqish Google Trends da aniq ko‘rinadi (8.3-rasm). Raqamli biznes gigantlari-Microsoft, IBM, Oracle, EMC va boshqalar-yangi yo‘nalishni rivojlantirishga qo‘shilishdi. 2014-yildan buyon big data universitetlarda o‘rganilib, amaliy fanlar -muhandislik, fizika, sotsiologiyada qo‘llanilmoqda.Vikipediya, 2018 yil o‘rtalarida, Big Data atamasiga quyidagi ta’rifni berdi: Big Data —2000-yillarning oxirida paydo bo‘lgan va an’anaviy ma’lumotlar bazalarini boshqarish tizimlari va Business Intelligence turkumining yechimlariga muqobil bo‘lgan gorizontal ravishda kengaytiriladigan dasturiy vositalar tomonidan samarali qayta ishlangan, katta hajmdagi tizim

8.3-rasm.Google Trendsda katta big dataqidiruv natijalari. Ko‘rib turganingizdek, ushbu ta’rifda “ulkan”, “muhim”, “samarali”va “muqobil”kabi atamalar mavjud. Hatto nomining o‘zi ham juda subyektivdir.
Masalan, 4 Terabayt (zamonaviy noutbukning tashqi qattiq diski hajmi) katta ma’lumotmi yoki yo‘qmi? IBS kompaniyasi tahlilchilari “butun dunyo ma’lumotlar hajmini”quyidagicha baholadilar: 2003-yil. —5 eksabayt ma’lumot (1 EB = 1 mlrd gigabayt)2008-yil. —0,18 zettabayt ma’lumot (1 ZB = 1024 eksabayt) 2015-yil. —более 6,5 zettabaytdan ortiq 2020-yil. —40–44 zettabayt (bashorat) 2025-yil. —bu ko‘rsatgich yana 10 barobarga oshadi. Hisobotda ma’lumotlarning aksariyati iste’molchilar tomonidan emas, balki korxonalar tomonidan ishlab chiqarilishi ta’kidlanadi.Siz jurnalist va marketologlar fikriga to‘liq mos keluvchi oddiyroq ta’rifdan foydalanishingiz mumkin. BIG DATA—bu uchta operatsiyani bajarishga mo‘ljallangan texnologiyalar to‘plami:

1.“Standart”ssenariyga nisbatan katta hajmdagi ma’lumotlarni qayta ishlash.


2. Juda katta hajmdagi tez keladigan ma’lumotlar bilan ishlashni o‘rganish.
3.Tartiblangan va tartiblanmagan ma’lumotlar bilan parallel va turli mezonlarga ko‘ra ishlay olish.

Ushbu “ko‘nikmalar”insonning cheklangan idrokidan chetda qolgan yashirin narsalarni ochib berishga imkon beradi deb ishoniladi. Bu bizning hayotimizning ko‘plab sohalarini: hukumat, tibbiyot, telekommunikatsiya, moliya, transport, ishlab chiqarish va boshqalarni optimallashtirish uchun misli ko‘rilmagan imkoniyatlarni beradi. Jurnalistlar va marketologlar Big Data iborasini shu qadar tez-tez ishlatib kelganliklari sababli, ko‘plab mutaxassislar ushbu atamani noaktual deb hisoblashadi va undan voz kechishni taklif qilishadi. Katta ma’lumotlarni aniqlovchi xususiyatlari sifatida, ularning fizik hajmidan tashqari va uni tahlil qilish murakkabligi ham sanab o‘tiladi. VVV xususiyatlar to‘plami (volume, velocity, variety —jismoniy hajm, ma’lumotlarning o‘sish tezligi va ularni tezkor qayta ishlashga bo‘lgan ehtiyoj, bir vaqtning o‘zida har xil turdagi ma’lumotlarni qayta ishlash qobiliyati) Meta Group tomonidan 2000-yilda barcha uch yo‘nalish bo‘yicha ma’lumotlarni boshqarishning teng ahamiyatini ta’kidlash uchun ishlab chiqilgan.1.Hajm (Volume) –ma’lumotlar miqdori va raqamli muhitda egallagan o‘rni bilan o‘lchanadi. “BIG” turkumiga kuniga 150 Gb dan ortiq massivlar kiradi.2.Yangilanish tezligi (Velocity) –ma’lumotlar muntazam ravishda yangilanadi va real vaqtda qayta ishlash uchun aqlli katta ma’lumot texnologiyalari zarur.3. Xilma-xillik (Variety) –massivlardagi ma’lumotlar turli formatga ega bo‘lishi mumkin bo‘lib, qisman, to‘liq va tartibsiz to‘planishi mumkin.Masalan, ijtimoiy tarmoqlarda katta ma’lumotlar, matn, video, audio, moliyaviy tranzaksiyalar, rasmlar va boshqalar qo‘llaniladi.Zamonaviy tizimlarda ikkita qo‘shimcha omil ko‘rib chiqiladi:


1)O‘zgaruvchanlik (Variability) –ma’lumot oqimlari ko‘tarilish va pasayish, mavsumiylik, davriylik omiliga ega bo‘lishi mumkin.
Tartyibsiz axborotni boshqarish qiyin va ularni qayta ishlash uchun kuchli texnologiyalarini talab qilinadi.2)Ma’lumotlar qiymati (Value) –axborotni idrok etish va qayta ishlash jarayonida turli xil murakkabliklar bo‘lishi mumkin. Bu esa intellektual tizimlar ishini murakkablashtiradi. Masalan, ijtimoiy tarmoqlardan keladigan xabarlar massivi -bu ma’lumotlarning bir darajasi, tranzaksiya operatsiyalari boshqasi. Mashinalarning vazifasi -tezkor tartiblash uchun kiruvchi ma’lumotlarning muhimlik darajasini aniqlash.Katta ma’lumotlar texnologiyasining ishlash tamoyili foydalanuvchini har qanday obyektyoki hodisa to‘g‘risida maksimal darajada xabardor qilishga asoslanadi. Ma’lumotlar bilan tanishishning maqsadi to‘g‘ri qaror qabul qilish uchun ijobiy va salbiy tomonlarni ko‘rib chiqishga yordam berishdir. Aqlli mashinalarda bir qator ma’lumotlar asosida kelajak modeli quriladi, so‘ngra turli xil variantlar simulyatsiya qilinadi va natijalar kuzatiladi.Zamonaviy analitik agentliklar g‘oyani, taxminni yoki muammoni hal etishda millionlab shunga o‘xshash simulyatsiyalarni qo‘llaydilar. Jarayon avtomatlashtirilgan.Katta ma’lumot manbalariga quyidagilar kiradi:Internet bloglar, ijtimoiy tarmoqlar, saytlar, OAV va turli forumlar;Arxiv, tranzaksiyalar, ma’lumotlar bazasi;o‘qish moslamalari -meteorologik qurilmalar, uyali aloqa dachchiklari va boshqalar.Yuqoridagi ta’riflarga asoslanib, katta ma’lumotlar bilan ishlashning asosiy tamoyillari quyidagilar:
1. Gorizontal mashtablilik. Bu katta ma’lumotlarni qayta ishlashning asosiy tamoyilidir. Yuqorida aytib o‘tganimizdek, kundan kunga katta ma’lumotlar ortmoqda. Shunga ko‘ra, ushbu ma’lumotlar tarqatiladigan hisoblash tugunlari sonini ko‘paytirish va sifat darajasini oshirish lozim. Ma’lumotlar miqdori 2 barobar oshdi degani -klasterdagi temir miqdori 2 barobar oshdi degani.
2. Faoliyat barqarorligi. Ushbu tamoyil avvalgisidan kelib chiqadi. Klasterda ko‘plab hisoblash tugunlari bo‘ladi (ba’zan o‘n minglab) va ularning soni ko‘payishi aniq. Shuning uchun mashinaning ishlamay qolish ehtimoli oshadi. Masalan, Yahoo-ning Hadoop klasterida 42000 dan ortiq mashinalar mavjud. Ma’lumotlarning katta qismi bunday uzilishlar ehtimolini hisobga olishi va ularni sifatli saqlab turishi kerak.
3. Ma’lumotlarning lokalligi.
Ma’lumotlar juda ko‘p sonli hisoblash tugunlari bo‘yicha tarqatilganligi sababli, agar ular bir serverda jismonan joylashgan bo‘lsa va boshqasida qayta ishlansa, ma’lumot uzatish xarajatlari asossiz ravishda katta bo‘lishi mumkin. Shuning uchun, ular saqlanadigan o‘sha mashinada ma’lumotlarni qayta ishlash maqsadga muvofiqdir. Ushbu tamoyillar yaxshi tuzilgan ma’lumotlar uchun an’anaviy, markazlashtirilgan, vertikal saqlash modellarida mavjud bo‘lganlardan farq qiladi. Shunga ko‘ra, katta ma’lumotlar bilan ishlash uchun yangi yondashuvlar va texnologiyalar ishlab chiqilmoqda. Dastlab yondashuvlar va texnologiyalar to‘plamiga noSQL MBBT, MapReduce algoritmlari va Hadoop loyiha vositalari kabi tuzilgan ma’lumotlarni massiv ravishda parallel qayta ishlash vositalari kiritilgan. Keyinchalik juda katta hajmdagi ma’lumotlar massivlariniqayta ishlashga o‘xshash imkoniyatlarni ta’minlaydigan boshqa yechimlar va ba’zi bir qo‘shimcha qurilmalar katta ma’lumotlar texnologiyalari deb nomlana boshlandi.MapReduce—Google tomonidan taqdim etilgan kompyuter klasterlarida taqsimlangan parallel hisoblash modeli. Ushbu modelga muvofiq, dastur klaster tugunlarida bajariladigan va so‘ngra yakuniy natijaga qadar tabiiy ravishda kamaytirilgan bir xil elementar topshiriqlarning ko‘p soniga bo‘linadi. MapReduce ishlash tamoyili 8.4-rasmda ko‘rsatilgan

Reducefunksiyasi foydalanuvchi tomonidan belgilanadi va alohida “savat”uchun yakuniy natijani hisoblab chiqadi. Reduce funksiyasi tomonidan qaytarilgan barcha qiymatlar to‘plami MapReduce vazifasining yakuniy natijasidir.MapReduce haqida bir nechta qo‘shimcha ma’lumotlar:


1) Mapfunksiyasining barchasi mustaqil va parallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
2) Reducefunksiyasining barchasi mustaqil vaparallel ravishda ishlaydi. Shu jumladan klasterdagi turli xil mashinalarda ham ishlashi mumkin.
3) Shufflefunksiyasining ichki tuzilishi parallel bo‘lib, u ham klasterdagi turli xil mashinalarda ishlashi mumkin.1-3-bandlar gorizontal mashtablashtirish tamoyilini bajarishga imkon beradi.
4) Mapfunksiyasi odatda ma’lumotlar saqlanadigan o‘sha mashinada qo‘llaniladi -bu tarmoq orqali ma’lumotlar uzatilishini kamaytirishga imkon beradi (ma’lumotlar lokalligi tamoyili).
5) MapReduce –bu har indekslar mavjudligini va doim to‘liq ma’lumotlarni skanerlash degani. Bu MapReduce juda tez javob talab etilganda juda yomon ishlashini anglatadi.NoSQL(Not Only SQL) —turli norelatsion ma’lumotlar bazalari va omborlari uchun umumiy atama bo‘lib, ma’lum bir texnologiya yoki mahsulotga tegishli emas. An’anaviy relyatsion ma’lumotlar bazalari juda tez va bir xil so‘rovlar uchun juda mos keladi va aksincha katta ma’lumotlarga xos bo‘lgan murakkab va egiluvchan so‘rovlarda bosim o‘rtacha me’yordan oshib ketadi va MBBT danfoydalanish samarasiz bo‘ladi.Hadoop—yuzlab va minglab tugunlarning klasterlarida ishlaydigan tarqatiladigan dasturlarni ishlab chiqish va bajarish uchun utilita, kutubxonalar va ramkalar to‘plami. Bu katta ma’lumotlarning asoslaridan biri hisoblanadi.R—statistik ma’lumotlarni qayta ishlash va grafikalar uchun dasturlash tili. U ma’lumotlarni tahlil qilish maqsadida keng qo‘llaniladi va statistik dasturlarning amaldagi standartiga aylangan.Apparatli yechimlar. Teradata korporatsiyasi, EMC va boshqalar katta ma’lumotlarni qayta ishlashga mo‘ljallangan
apparatli va dasturiy ta’minot tizimlarini taklif qilishadi. Ushbu majmualar server klasteri va massiv parallel ishlov berish uchun boshqaruv dasturini o‘z ichiga olgan o‘rnatishga tayyor telekommunikatsion shkaflar sifatida yetkazib beriladi. Bunga ba’zida operativ xotirada analitik ishlov berish uchun apparatli yechimlari ham kiritiladi. Xususan, SAP kompaniyasidan Hanava Oracle kompaniyasidan Exalytics apparat va dasturiy ta’minot tizimlari kompleksi bo‘lishiga qaramay, ularning operativ xotirasi miqdori bir necha terabayt bilan cheklanadi.McKinsey konsalting kompaniyasi aksariyat tahlilchilar tomonidan ko‘rib chiqiladigan NoSQL, MapReduce, Hadoop, Rtexnologiyalaridan tashqari Business Intelligencetexnologiyalari va SQL tilini qo‘llab-quvvatlaydigan katta ma’lumotlarni qayta ishlashga qodir relyatsion ma’lumotlar bazasini boshqarish tizimlarini o‘z ichiga oladi.McKinsey xalqaro strategik boshqaruv kompaniyasi katta ma’lumotlarga tatbiq etilishi mumkin bo‘lgan 11 ta tahliliy uslublarni keltiradi.
•Data Mininguslubi(ma’lumotlarni olish, ularni intellektual va chuqur tahlil qilish) —qaror qabul qilish uchun zarur bo‘lgan ilgari noma’lum, ahamiyatsiz, amaliy foydali bilimlarni aniqlash usullari to‘plami. Bunday usullarga, xususan, assotsiativ qoidalarni o‘qitish (association rule learning), klassifikatsiya qilish (turkumlarga ajratish), klasterli tahlil, regression tahlil, og‘ishlarni aniqlash va tahlil qilish va boshqalar kiradi.• Kraudsorsing—buishni mehnat munosabatlariga kirmasdan bajaradigan keng doira kuchlari tomonidan ma’lumotlarni tasniflash va boyitish.• Ma’lumotlarni birlashtirish va integratsiya qilish(data fusion and integration) —chuqur tahlil qilish maqsadida (raqamli signallarniqayta ishlash, nutqni qayta ishlash, shu jumladan ohang tahlili va h.k) turli xil manbalardan olingan ma’lumotlarni birlashtirishga imkon beradigan texnik vositalar to‘plami).
• Avtomatik ta’lim. shu jumladan nazorat ostida va nazoratsiz o‘rganish -bazaviy modellardan murakkab bashoratlarni yaratish uchun statistik tahlilga asoslangan modellardan foydalanish yoki avtomatik ta’lim.• Sun’iy neyronli tarmoqlar. Tarmoqli tahlil, optimallashtirish, shu jumladan genetik algoritmlar (genetic algorithm —Tabiatda tabiiy tanlov jarayoniga o‘xshash mexanizmlardan foydalangan holda, kerakli parametrlarni tasodifiy tanlash, kombinatsiya qilish va o‘zgartirish orqali optimallashtirish va modellashtirishni hal qilishda foydalaniladigan evristik qidiruv algoritmlari).•Bashoratli tahlil. Tahlilchilar tizimga oldindan ma’lum parametrlarni o‘rnatishga harakat qiladilar. So‘ngra katta hajmdagi ma’lumotlarning kelib chiqishi asosida obyektning xatti-harakatlarini tekshiradilar.• Imitativ modellashtirish(simulation) —jarayonlarni haqiqatda bo‘lgani kabi tasvirlaydigan modellarni yaratishga imkon beradigan usul. Imimtatsiyani eksperimental sinovning bir turi deb hisoblash mumkin.• Statistik tahlil—vaqtinchalik qatorlar tahlili, A/B-testlash (A/B testing, split testing —marketing tadqiqot usuli: undan foydalanganda, elementlarning nazorat guruhi bir yoki bir nechta ko‘rsatkichlar o‘zgartirilgan test guruhlari to‘plami bilan taqqoslanadi. Bu o‘zgarishlar aniq nima yaxshilaganligini aniqlash uchun qilinadi.• Tahliliy ma’lumotlarni vizuallashtirish—natijalarni olish, qo‘shimcha ma’lumotlarni tahlil qilish uchun kirish ma’lumotlari sifatida ishlatish interaktivlik va animatsiyadan foydalangan holda ma’lumotlarni rasmlar, diagrammalar shaklida taqdim etish. Keng qamrovli ma’lumotlarni tahlil qilishning eng muhim bosqichi bo‘lib, bu sizga tahlil natijalarini tushunarli shaklda taqdim etishga imkon beradi. BIG DATA dan maksimal darajada foydalanish uchun faqat analitik IT-yechimlarni qo‘llashning o‘zi yetarli emas. Ushbu ma’lumotlarning tartibsiz manbalaridan yig‘ilishini va ajratib olinishini tashkil qilish kabi ishlar muhim ahamiyatga ega bo‘lib, shu maqsadlar uchun data, text, procces miningishlatiladi. Turli sohalarida katta ma’lumotlardan foydalanish.Biznes va marketingsohasidagi katta ma’lumotlar. Inson ma’lum narsa va hodisalar to‘g‘risida qanchalik ko‘p ma’lumotga ega bo‘lsa, aniq bashorat qilish ehtimoli shuncha yuqori bo‘ladi. BIG DATA biznes va marketing sohasi uchun juda muhim. Biznes strategiya, marketing faoliyati, reklama tahliliga va mavjud ma’lumotlar bilan ishlashga asoslangan. Katta massivlar katta miqdordagi ma’lumotni tahlil qilishga imkon beradi va shunga mos ravishda tovar, mahsulot, xizmatni rivojlantirish yo‘nalishini iloji boricha aniqroq ko‘rsatadi.Masalan, RTB kim oshdi savdosi katta ma’lumotlar bilan ishlaydi va tijoriy takliflarini hammaga emas, balki kerakli auditoriyaga samarali ravishda reklama qilish imkonini beradi.Biznes uchun foydasi:foydalanuvchilar va xaridorlar orasida talabga mos bo‘lgan loyihalarni yaratish.kompaniyaning mavjud xizmati asosida mijozlar talablarini o‘rganish va tahlil qilish. Hisob-kitob asosida xizmat ko‘rsatuvchi xodimlarning ishini yaxshilash.Bloglar, ijtimoiy tarmoqlar va boshqa manbalardan olingan turli xil ma’lumotlarni tahlil qilish orqali mijozlar bazasining loyal yoki noroziligini aniqlash.Ko‘p sonli ma’lumot bilan tahliliy ish olib borish orqali auditoriyani jalb qilish va saqlab qolish. Google Trends, Yandex va Wordstat (Rossiya va MDH uchun) texnologiyalaridan foydalangan holda mahsulotlarning ommabopligini taxmin qilish mumkin. BIG DATA dan barcha yirik kompaniyalar -IBM, Google, Facebook va moliyaviy korporatsiyalar -VISA, Master Card, shuningdek, dunyodagi ba’zi vazirliklar foydalanadi. Masalan, Germaniyada ba’zi fuqarolar ishsizlik bo‘yicha nafaqani asossiz olayotgani hisoblanib, ishsizlik bo‘yicha nafaqa berish qisqartirildi. Shunday qilib, budjetga taxminan 15 milliard yevro qaytarildi.
Yaqinda foydalanuvchi ma’lumotlarining tarqalishi sababli yuzaga kelgan Facebook bilan bog‘liq mojaro saralanmagan ma’lumotlar hajmi o‘sib borishini va hatto raqamli asrning gigantlari ham har doim konfidensiallikni to‘liq ta’minlay olmasliklari ko‘rinib qoldi.Masalan, Master Card mijozlarning hisob varoqlari bilan bog‘liq firibgarlik operatsiyalarining oldini olish uchun katta ma’lumotlardan foydalanadi. Shunday qilib, yiliga o‘g‘irlikdan 3 milliard AQSh dollaridan ko‘proq mablag‘ni asrab qolish mumkin.O‘yin sohasida katta ma’lumotlar o‘yinchilarning xatti-harakatlarini tahlil qilish, faol auditoriyani aniqlash va shu asosda o‘yinga qiziqish darajasini taxmin qilish imkonini beradi.Bugungi kunda korxonalar o‘z mijozlari haqida ularning o‘zlaridan ham ko‘proq ma’lumotga ega. Shuning uchun Coca-Cola va boshqa korporatsiyalarning reklama kampaniyalari muvaffaqiyat qozonadi.Bank sektori yuqori xavfli guruhga mansubligini hisobga olsak, supermassiv tahlilni joriy etish juda muhimdir.


Yüklə 0,75 Mb.

Dostları ilə paylaş:
1   2   3   4   5   6   7   8   9




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin