1.1-jadval. RDBMSni MapReduce bilan solishtirish
Parametr
|
An'anaviy RDBMS
|
MapReduce
|
Ma'lumotlar hajmi
|
gigabayt
|
Petabayt
|
Kirish
|
Interaktiv va ommaviy
|
To'plam
|
Yangilanishlar
|
Ko'p o'qish va yozish
|
yozing , ko'p marta o'qing
|
Tuzilishi
|
Statik sxema
|
dinamik sxema
|
Butunlik
|
yuqori
|
Past
|
Masshtablash
|
chiziqli bo'lmagan
|
Chiziqli
|
MapReduce o'rtasidagi yana bir farq va RDBMS - ular ishlaydigan ma'lumotlar to'plamlarining tuzilganligi. Strukturaviy ma'lumotlar ma'lum bir formatga ega bo'lgan ob'ektlarga bo'linadi, masalan, XML hujjatlari yoki ma'lum, oldindan belgilangan sxemaga mos keladigan ma'lumotlar bazasi jadvallari. Bu hudud RSUBDRSSR tomonidan boshqariladi. Boshqa tomondan, yarim tizimli ma'lumotlar kamroq rasmiy; sxema mavjud bo'lsa ham, u ko'pincha faqat eng umumiy ma'lumotlar strukturasini tavsiflaydi: masalan, elektron jadvalda struktura hujayralar to'plamidir, hujayralarning o'zi esa ixtiyoriy ma'lumotlarni o'z ichiga olishi mumkin. Strukturaviy bo'lmagan ma'lumotlarga ega
Ma'lum bir ichki tuzilma: u oddiy matn, grafik ma'lumotlar va hokazo MapReduce bo'lishi mumkin tizimlashtirilmagan yoki yarim tuzilgan ma'lumotlar bilan yaxshi ishlaydi, chunki texnologiya qayta ishlash jarayonida ma'lumotlarni sharhlash uchun mo'ljallangan. Boshqacha qilib aytganda, MapReduce kiritish kalitlari va qiymatlari ma'lumotlarning ichki xususiyatlari emas, balki ma'lumotlarni tahlil qiluvchi shaxs tomonidan tanlanadi.
Aloqaviy ma'lumotlar ko'pincha yaxlitlikni saqlash va ortiqchalikni yo'q qilish uchun normallashtiriladi . Normalizatsiya MapReduce uchun muammolarni keltirib chiqaradi, chunki u yozuvni o'qishni mahalliy bo'lmagan operatsiyaga aylantiradi, lekin MapReduce ishlashi uchun eng muhim shartlardan biridir. (yuqori tezlikda ) oqimli o'qish va yozishni amalga oshirish qobiliyatidir .
Oddiylashtirilmagan yozuvlar to'plamining yaxshi namunasi veb-server jurnalidir ( masalan, har bir mijoz jurnalda bir necha marta paydo bo'lishi mumkin bo'lsa ham, har bir yozuv mijozning xost nomlarini to'liq ro'yxatini beradi).
Tarqalgan hisoblash
Yuqori samarali jamoalar ( HPC , Oliy Ishlash Hisoblash ) va taqsimlangan hisoblash ( Grid Computing ) yillar davomida MPI ( Xabar ) kabi dastur interfeyslari ( API ) yordamida keng ko'lamli ma'lumotlarni qayta ishlash bilan shug'ullanadi . O'tish interfeysi ). Tafsilotlarga kirmasdan, HPC yondashuvi SAN ma'lumotlarni saqlash tarmog'i ( Storage ) tomonidan boshqariladigan umumiy fayl tizimi bilan ishlaydigan mashinalar klasterlari o'rtasida ishlarni taqsimlashdan iborat edi. hudud tarmoq ). Ushbu yondashuv katta hajmdagi hisob-kitoblarni talab qiladigan vazifalar uchun yaxshi. Biroq, tugunlar katta hajmdagi ma'lumotlarga kirishi kerak bo'lganda muammolarni keltirib chiqaradi (yuzlab gigabaytlar - MapReduce undan keyin chegara). to'liq yorqinlikda paydo bo'ladi) chunki tarmoq o'tkazish qobiliyati muammoga aylanadi va tugunlar ishlay boshlaydi.
Ma'lumotlar joylashuvi deb ataladigan ushbu xususiyat MapReduce texnologiyasining markazida joylashgan . va uning yaxshi ishlashi uchun sababdir. Dizaynerlar tarmoq o'tkazish qobiliyati ma'lumotlar markazi muhitidagi eng qimmatli resurs ekanligini tushunishadi (juda ko'p ma'lumotlarni nusxalash tarmoq havolalarini osongina tiqilishi mumkin) va MapReduce -ni amalga oshirish tarmoq topologiyasini aniq modellashtirish orqali iloji boricha uni saqlashga harakat qiling. Shuni ta'kidlash kerakki, bu yondashuv MapReduce -ga asoslangan intensiv hisob-kitoblarga to'sqinlik qilmaydi .
MPI bilan dasturchi nima sodir bo'lishini to'liq nazorat qiladi, lekin u ma'lumotlarni uzatishning barcha mexanikasini amalga oshirishni aniq belgilashi, uni past darajadagi C funktsiyalari sifatida ifodalashi kerak. va rozetkalar kabi konstruksiyalar (yuqori darajadagi tahlil qilish algoritmlari bilan birga). MapReduce ishlaydi
Keng ko'lamli taqsimlangan muhitda jarayonlarni muvofiqlashtirish ko'plab muammolarni keltirib chiqaradi. Eng qiyin qismi, butun hisoblashni davom ettirayotganda, qisman nosozliklarni to'g'ri hal qilishdir (masofaviy jarayon buzilganmi yoki yo'qligini bilmasangiz) . MapReduce dasturchini nosozliklar haqida o'ylashdan qutqaradi , chunki amalga oshirish muvaffaqiyatsiz xaritalash yoki katlama vazifalarini aniqlaydi va ularni sog'lom mashinalarda qayta rejalashtiradi. MapReduce buni amalga oshirishi mumkin, chunki u almashishsiz arxitekturalar toifasiga kiradi ( umumiy - hech narsa ), ya'ni vazifalar bir-biriga bog'liq emas.,
Dostları ilə paylaş: |