Page 31
ma'lumotlar bir nechta formatlarda mavjud, jumladan, tuzilgan, yarim tizimli,
tuzilmagan va hatto murakkab tuzilgan ma'lumotlar. Ma'lumotlar formatlarining xilma-
xilligi tufayli an'anaviy tahliliy usullar katta ma'lumotlarni boshqara olmaydi. Tahlil
uchun ma'lumotlarni tayyorlash uchun samarali texnikani loyihalash zarur bo'lib, ular
juda katta vaqt va kuch talab qiladi.
Olingan ma'lumotlarning sifati sezilarli darajada farq qiladi. U ma'lumotlarning
noto'g'riligini, shovqinlarini, anormalliklarini va boshqalarni ko'rsatadi. Bu tahlilning
to'g'riligiga ta'sir qiladi. Haqiqiylikni saqlash tizimda nuqsonli ma'lumotlarni
to'plamaydi. Qiymat haqiqatga ta'sir qilishi mumkin.
Oʻzgaruvchanlik
katta
maʼlumotlarning
yangi
oʻlchami
tomonidan
kiritilgan.“Oʻzgaruvchanlik” atamasi maʼlumotlar oqimi tezligining oʻzgarishini
bildiradi. Katta ma'lumotlarning tezligi ko'pincha tartibsiz bo'lib, vaqti-vaqti bilan
cho'qqilar va pastliklar bo'ladi.
"Ma'lumotlarning haqiqiyligi" va "ma'lumotlarning haqiqiyligi" atamalari
ko'pincha xuddi shunday qo'llaniladi. Ular bir xil tushuncha emas, lekin ular
o'xshashdir. Haqiqiylik deganda ma'lumotlarning to'g'riligi va ulardan maqsadli
foydalanish bo'yicha aniqligi tushuniladi. Boshqacha qilib aytadigan bo'lsak,
ma'lumotlarning to'g'riligi bilan bog'liq muammolar bo'lmasligi mumkin, ammo
tushunilmagan bo'lsa, u haqiqiy bo'lmasligi mumkin.
Katta ma'lumotlarning o'zgaruvchanligi haqida gap ketganda, tashkilotlarda har
kuni qo'llaniladigan tuzilgan ma'lumotlarni saqlash siyosatini osongina eslash mumkin.
Saqlash muddati tugaganidan keyin uni osongina yo'q qilish mumkin.
Qiymat Oracle tomonidan katta ma'lumotlarning belgilovchi xususiyati sifatida
taqdim etilgan. "Qimmat" atamasi ma'lumotlardan olingan qimmatli bilimlarni bildiradi.
Ma'lumki, ma'lumotlar chuqur darajada muhimdir. Biroq, ahamiyati burg'ulash kerak.
Katta ma'lumotlarda umuman sakkizta V mavjud. E'tibor bering, bu V lar
o'zgarmasdir; ular yaqin kelajakda o'zgarishi mumkin.
Mavjud asboblarning aksariyati oqimni qayta ishlashga, interaktiv tahlilga va
partiyani qayta ishlashga qaratilgan. Hozirgi vaqtda katta ma'lumotlarni tahlil qilish
uchun foydalaniladigan ba'zi vositalar ushbu bo'limda ko'rib chiqiladi.
Hadoop va MapReduce bir-birini almashtirib bo'lmaydigan atamalar emas; Hadoop
aslida MapReduce kontseptsiyasini amalga oshirishdir. MapReduce - bu katta hajmdagi
ma'lumotlarni qayta ishlash uchun bo'lish va egallash texnikasidan foydalanadigan
model. Hadoop ikkita tugundan iborat: master va ishchi, MapReduce esa ikkita asosiy
bosqichni bajaradi: Map va Reduce. Asosiy tugun kiruvchi ma'lumotlarni kichik
muammolarga ajratadi, ular keyinchalik ishchi tugunlarga tayinlangan Xarita bosqichida
bo'ladi. Keyin barcha kichik muammolarning natijalari asosiy tugun tomonidan
qisqartirish bosqichida birlashtiriladi .