AXBOROT TEXNOLOGIYALARI VA KOMMUNIKATSIYALARNI
RIVOJLANTIRISH VAZIRLIGI
MUHAMMAD AL – XORAZMIY NOMIDAGI
TOSHKENT AXBOROT TEXNOLOGIYALARI UNIVERSITETI
FARG‘ONA FILIALI
“Kompyuter injiniring” fakulteti
_____Kompyuter injiniring_____ yo‘nalishi
_614-19_ – guruh talabasi
____Abdumutalov Anvarjon Xoliq o’g’li_ ning
“MA’LUMOTLAR KOMMUNIKATSIYASI”
fanidan tayyorlagan
AMALIY MASHG‘ULOT
ISHLARI
Topshirdi: ____Abdumutalov Anvarjon____
Qabul qildi: O.I.Ergashev
Farg‘ona 2023
AMALIY MASHG‘ULOT – 1
Mavzu: Ma'lumotlarni saqlash va tahlil qilish
Ishning maqsadi: Ma'lumotlarni saqlash va tahlil qilish jarayonida uskunaning nosozliklari ehtimolini o'rganish.
Ushbu muammolarning mohiyati oddiy: qattiq disklarning sig'imi yillar davomida sezilarli darajada oshgan bo'lsa-da, kirish tezligi (ya'ni diskdan ma'lumotlarni o'qish tezligi) undan orqada qolmoqda. Odatda 1990-yilgi qattiq disk 4,4 MB/s uzatish tezligida 1370 MB ma’lumotga ega edi. Shuning uchun to'liq diskdan barcha ma'lumotlarni o'qish uchun taxminan 5 daqiqa vaqt ketdi. 20 yildan keyin terabaytli drayvlar odatiy holga aylandi, ammo uzatish tezligi taxminan 100 MB / s ni tashkil qiladi, shuning uchun diskdagi barcha ma'lumotlarni o'qish uchun taxminan 2,5 soat kerak bo'ladi.
Bitta diskdan barcha ma'lumotlarni o'qish juda sekin, yozish esa undan ham sekinroq. O'qish vaqtini qisqartirishning aniq yo'li bir vaqtning o'zida bir nechta disklardan ma'lumotlarni o'qishdir. Tasavvur qiling-a, sizda 100 ta disk bor, ularning har biri ma'lumotlarning 1/100 qismini o'z ichiga oladi. Ushbu disklar parallel ravishda ishlayotgan bo'lsa, ma'lumotlar ikki daqiqada o'qiladi.
Bir qarashda, diskning yuzdan bir qismini ishlatish g'oyasi behuda ko'rinadi . Lekin biz har biri bir terabayt bo'lgan yuzta ma'lumotlar to'plamini saqlashimiz va ularni baham ko'rishimiz mumkin. Ehtimol, bunday tizim foydalanuvchilari tezroq ma'lumotlarni tahlil qilish evaziga umumiy foydalanishni qabul qilishga tayyor bo'ladi; bundan tashqari, statistik ma'lumotlarga ko'ra, ularning ma'lumotlarni tahlil qilish vazifalari vaqt o'tishi bilan tarqalish ehtimoli ko'proq va bir-biriga aralashish ehtimoli kamroq. Biroq, bir nechta disklarda parallel ravishda ma'lumotlarni o'qish va yozish tushunchasi juda oddiy emas.
Birinchidan, uskunaning ishdan chiqishi ehtimolini hisobga olish kerak; bitta o'rniga ko'plab qurilmalardan foydalanishni boshlashingiz bilan ulardan birida ishlamay qolish ehtimoli sezilarli darajada oshadi. Ma'lumotlar yo'qolishining oldini olishning standart usuli - bu replikatsiya: tizim ma'lumotlarning ortiqcha nusxalarini saqlaydi, shunda xatolik yuz berganda boshqa nusxasi mavjud bo'ladi. Masalan, RAID massivlari shunday ishlaydi , garchi siz yaqinda bilib olganingizdek, Hadoop fayl tizimi HDFS ( Hadoop _ tarqatilgan Fayl tizimi ) - biroz boshqacha yondashuvni qo'llaydi.
Ikkinchidan, ko'pchilik ma'lumotlarni tahlil qilish vazifalari ma'lumotlarni qandaydir tarzda birlashtirishni talab qiladi. Ma'lum bo'lishicha, bitta diskdan o'qilgan ma'lumotlar boshqa barcha 99 diskdagi ma'lumotlar bilan birlashtirilishi kerak. Turli xil taqsimlangan tizimlar bir nechta manbalardan ma'lumotlarni birlashtirishga imkon beradi, ammo bu vazifa o'zining murakkabligi bilan mashhur. MapReduce Diskdagi o'qish va yozishdan vazifani abstraktlashtiradigan, uni kalitlar va qiymatlar to'plami bilan hisob-kitoblarga aylantiradigan dasturlash modelini taqdim etadi. Ushbu model keyingi boblarda batafsil muhokama qilinadi, ammo hozircha ma'lumotlarni qayta ishlash ikki bosqichdan iborat ekanligini eslatib o'tish muhim: xaritalash ( Xarita ) va konvolyutsiya ( Qisqartirish ) ; ma'lumotlarni yig'ish ularning chegarasida sodir bo'ladi. HDFS , MapReduce kabi o'rnatilgan ishonchlilik mexanizmlariga ega.
Aslida, bu Hadoopning funksionalligi : ma'lumotlarni ishonchli umumiy saqlash va tahlil qilish tizimi. HDFS saqlashni ta'minlaydi, MapReduce esa - tahlil. Hadoop boshqa komponentlarni o'z ichiga oladi, lekin bu xususiyatlar tizimning yadrosini tashkil qiladi.
Hadoop va RDBMS
Nima uchun keng miqyosli ommaviy tahlilni amalga oshirish uchun ko'p diskli ma'lumotlar bazalaridan foydalanmaslik kerak? MapReduce texnologiyasi nima uchun kerak ?
Bu savollarga javob disk drayverlari sohasidagi yana bir tendentsiya bilan bog'liq: joylashishni aniqlash tezligi ma'lumotlarni uzatish tezligidan ko'ra sekinroq yaxshilanadi. Joylashtirish - ma'lumotlarni o'qish yoki yozish uchun o'qish boshini diskdagi ma'lum bir joyga ko'chirish jarayoni. Joylashuv tezligi diskdagi operatsiyalarning kechikishini aniqlaydi, ma'lumotlar tezligi esa disk bilan aloqa kanalining o'tkazuvchanligini aniqlaydi.
Agar ma'lumotlarga kirish sxemasida joylashishni aniqlash operatsiyalari ustunlik qilsa, ma'lumotlar to'plamining katta qismlarini o'qish va yozish ma'lumotlar tezligida bajariladigan oqim operatsiyalariga qaraganda ko'proq vaqt oladi. Boshqa tomondan, an'anaviy B daraxtlari (relational ma'lumotlar bazalarida ishlatiladigan ma'lumotlar strukturasi cheklangan joylashishni aniqlash tezligining kamchiliklariga ega) ma'lumotlar bazasidagi yozuvlarning nisbatan kichik qismini yangilash uchun juda mos keladi . Ma'lumotlar bazasining katta qismini yangilashda B - daraxti ma'lumotlar bazasini yangilash uchun birlashtirish tartibidan foydalanadigan MapReduce ga qaraganda unchalik samarali emas .
Ko'p jihatdan MapReduce relyatsion ma'lumotlar bazasini boshqarish tizimi (RDBMS) texnologiyasiga qo'shimcha sifatida qaralishi mumkin (ikki tizim o'rtasidagi farqlar 1.1-jadvalda umumlashtirilgan). MapReduce butun ma'lumotlar to'plamini ommaviy (va ayniqsa tizimli bo'lmagan) tahlil qilishni talab qiladigan vazifalar uchun juda mos keladi .
ko'p marta o'qiladi, relyatsion ma'lumotlar bazalari tez-tez yangilanadigan ma'lumotlar to'plamlari uchun juda mos keladi.
Dostları ilə paylaş: |