Algoritmni, ma`lumotlar tarkibini va instrumentlarni to`g`ri tanlash. Muammolar va yechimlar o'rtasida aniq ko`rsatmalar yoki tushunchalar mavjud emas, chunki ko'plab yechimlar xotira va hisoblash samaradorligini hisobga oladi. Masalan, ma'lumotlar to'plamini siqish sizga xotira yetishmasligi muammolarini hal qilishga yordam beradi, chunki ma'lumotlar to'plami kichrayadi. Ammo bu sekin qattiq diskdan tezkor protsessorga ma`lumotlar o'tishida hisoblash tezligining o`zgarishiga ham ta'sir qiladi. RAM (Tezkor xotira) dan farqli o'laroq, qattiq disk elektr quvvati uzilib qolgandan keyin ham hamma narsani saqlab qoladi, lekin diskka yozish tezkor operativ xotiradagi ma'lumotlarni o'zgartirishdan ko'ra ko'proq vaqt talab etadi. Masalan, doimiy ravishda o'zgarib turadigan ma'lumotlar bilan ishlasha operativ xotira, qattiq diskdan afzalroqdir. Oddiy ko'p sonli o'qish va yozish ishlari amalga oshirilganda, protsessor asosan ishlamaydi, lekin siqilgan ma'lumotlar to'plami bilan ishlash jarayonida CPU (Markaziy protsessor) ish yukining ko`proq ulushini oladi.
To'g'ri algoritmni tanlash ko'proq yoki yaxshiroq apparat qo'shishdan ko'ra afzalroq bo`lishi va ko`proq muammolarni hal qilishi mumkin. Katta ma'lumotlarni qayta ishlash uchun mos bo'lgan algoritmning faoliyatini bashorat qilish uchun butun ma'lumotlar to'plamini xotiraga yuklashi shart emas. Ideal holda, algoritm parallel hisoblashni ham qo'llab-quvvatlasa ish tezligi yanada oshadi. Quyida asosiy algoritm turlari berilgan diaggrama keltirilgan:
Onlayn algoritmlar
Blokli matritsalar
Map Reduce
Algoritmlar dasturingizni yaratishi yoki buzishi mumkin, ammo ma'lumotlaringizni qanday ko`rinishda saqlashingiz ham shunchalik ahamiyatga egadir. Ma'lumotlar tuzilmalari turli xil ma`lumot saqlash talablariga ega bo`lib CRUD (Yaratish, o'qish, yangilash va o'chirish) tezligiga va boshqa ma'lumotlar to'plami operatsiyalari ishlashiga ham ta'sir qiladi.
Quyida asosiy ma`lumotlarni saqlash strukturalari keltirilgan:
Bo`lingan ma`lumotlar
Daraxt
Hash
…
Algoritmlar va ma'lumotlar tuzilmalarining to'g'ri sinfini tanlaganingizdan so'ng, to'g'ri vositani tanlashingiz kerak. Bunday vosita Python kutubxonasi yoki hech bo'lmaganda Python-dan boshqarilishi mumkin bo'lgan vosita bo'lishi mumkin
Foydalanilgan adabiyotlar ro’yhati:
1. Дэви Силен, Арно Мейсман, Мохамед Али. Основы Data Science и Big Data. Python и наука о данных. СПб.: Питер, 2017. -336 с.(Серия «Библиотека
2.П.Флах. Наука и искусство построения алгоритмов, которью извлекают знания из данннх. Издание Cambridge Unversity Press, 2012 г.
3.Праймесбергер, 2011, “Big data refers to the volume, variety and velocity of structured and unstructured data pouring through networks into processors and storage devices, along with the conversion of such data into business advice for enterprises.”.
4.McKinsey, 2011, “Big data” refers to datasets whose size is beyond the ability of typical database software tools to capture, store, manage, and analyze, p. 1.
Dostları ilə paylaş: |