Katta malumotlarni qayta ishlash texnologiyalari



Yüklə 111,17 Kb.
Pdf görüntüsü
səhifə3/5
tarix13.12.2023
ölçüsü111,17 Kb.
#175176
1   2   3   4   5
KATTA MALUMOTLARNI QAYTA ISHLASH TEXNOLOGIYALARI

Mashinani o'rganish
Ushbu bo'limda mashinani o'rganish (ML) va uning turli yondashuvlari, algoritmlari 
va ilovalari haqida umumiy ma'lumot berilgan.
Mashinani o'rganish - bu "ta'lim tizimlari va algoritmlarining nazariyasi, ishlashi va 
xususiyatlariga rasman e'tibor qaratadigan tadqiqot sohasi". U sun'iy intellekt, kognitiv 
fan, optimal boshqaruv, axborot va optimallashtirish nazariyalari, statistika va fan, 
matematika va muhandislikning boshqa sohalarida keng qo'llanilishiga ega. Mashinalarni 
o'rganish bo'yicha tadqiqotlar birinchi navbatda ma'lumotlar prognozlarini yaratadigan 
samarali, tezkor o'rganish algoritmlarini yaratishga qaratilgan. Hozirgi vaqtda har bir 
kishi o'z qurilmalari yordamida xom ma'lumotlarni ishlab chiqarish imkonini bergan 
texnologik davr tufayli ma'lumotlar eksponent ravishda o'sib bormoqda. Xom 
ma'lumotlar shovqinli, singan, tuzilmagan va qarama-qarshi bo'lishi mumkin. Oldindan 


ishlov berish ushbu ma'lumotlarni tozalash, o'zgartirish, ajratib olish va birlashtirish orqali 
o'rganish uchun qulay formatga aylantiradi. Ishlash ko'rsatkichlarini yaxshilash uchun 
o'quv ma'lumotlar to'plamidan foydalangan holda ba'zi faoliyatni amalga oshirayotganda, 
bu o'rganish muammosi deb ataladi.
Mashinani o'rganish uch turga bo'linadi: nazorat ostida o'rganish, nazoratsiz 
o'rganish va mustahkamlovchi o'rganish. Nazorat ostidagi taʼlim uchun kirishlar va 
kutilgan natijalar bilan yorliqlangan oʻquv maʼlumotlari talab qilinadi.Aksincha, etiketli 
taʼlim maʼlumotlari nazoratsiz oʻrganishni talab qilmaydi va faqat kirishlar moʻljallangan 
natijalarsiz berilishi kerak. U etiketlanmagan ma'lumotlardagi yashirin ma'lumotlarni 
topish uchun ishlatiladi, masalan, klaster tahlili. Kirish namunalarining o'xshashligini 
tekshirib, nazoratsiz o'rganish algoritmi namunalar to'plamini alohida klasterlarga 
tasniflaydi. Kuchli o'rganish (RL) tashqi dunyo bilan o'zaro ta'sirlardan olingan fikr-
mulohazalar asosida o'rganish imkonini beradi. U sinov va xatolik asosida ishlaydi, 
o‘quvchi natijalar asosida qaysi strategiyadan foydalanishni belgilaydi. RL algoritmlari, 
ayniqsa, o'quv ma'lumotlarining katta guruhiga ega bo'lganda, nazorat qoidalarini 
oldindan ma'lumotga ega bo'lmagan holda o'rganishda samarali bo'ladi, biroq ular ba'zi 
kamchiliklarga ega, ulardan biri ideal echimni topish bilan bog'liq muhim hisoblash 
xarajatlaridir .
Reprezentatsiyani o'rganish
Ma'lumotlarning qimmatli va mazmunli tasvirlarini o'rganish vakillik o'rganishning 
asosiy maqsadidir. O'rtacha o'lchamdagi o'rganilgan vakillik juda ko'p muqobil kiritish 
konfiguratsiyasini qo'lga kiritishga qodir, bu esa hisoblash va statistik samaradorlikni 
sezilarli darajada oshirishi mumkin. Mashinani o'rganish texnikasining muvaffaqiyati 
ko'p jihatdan ma'lumotlarning qanchalik yaxshi ifodalanishiga bog'liq .
Chuqur o'rganish
Chuqur o'rganish - bu sun'iy neyron tarmoqlari deb ataladigan miyaning funktsiyasi 
va tuzilishi ta'sir qiladigan algoritmlarga tayanadigan mashinani o'rganish sohasi. Sayoz 
tuzilgan ta'lim arxitekturalariga tayanadigan ko'pgina klassik o'rganish usullaridan farqli 
o'laroq, chuqur o'rganish birinchi navbatda ierarxik tasvirlarni avtomatik ravishda 


o'rganish uchun chuqur arxitekturada nazorat qilinadigan va/yoki nazoratsiz 
algoritmlardan foydalanadi. Chuqur o'rganish, qo'shimcha misollar bilan o'rgatish orqali 
modelning chuqurligini yoki tasvirlash qobiliyatini kengaytirish orqali model ishlashini 
yaxshilash xususiyatiga ega. Katta ma'lumotlar tahlilining xilma-xilligi va hajmi bilan 
ishlash uchun chuqur o'rganish arxitekturasi va algoritmlaridan foydalanish maqsadga 
muvofiqdir. Chuqur o'rganishning va'dalaridan biri shundaki, xususiyatlarni o'rganish va 
ierarxik xususiyatlarni ajratib olish usullari qo'lda xususiyatlarni tanlash o'rnini bosishi 
mumkin.
Tarqalgan va parallel ta’lim
O'rtacha vaqt ichida katta hajmdagi ma'lumotlarni qayta ishlash algoritmlarini 
o'rganish qiyin bo'ladi; bunday holatda, taqsimlangan ta'lim istiqbolli ko'rinadi, chunki bu 
o'rganish algoritmlarini kengaytirishning texnik usulidir. Klassik ta'lim paradigmasidan 
farqli o'laroq, ma'lumotlar markaziy qayta ishlash maqsadida ma'lumotlar bazasida 
to'planishi kerak, taqsimlangan ta'lim o'rganishni taqsimlangan tarzda amalga oshirishga 
imkon beradi. Meta-o'rganish, qaror qabul qilish qoidalari, taqsimlangan kuchaytirish va 
stacking umumlashtirish - bu taqsimlangan va parallel mashinani o'rganishning eng 
mashhur yondashuvlaridan biri. Muhim printsip shundaki, taqsimlangan va parallel 
o'rganish algoritmlari o'rganish qiyin bo'lgan vaziyatlarni birinchi o'ringa qo'yishi kerak.
Ta'limni uzatish
Ba'zi hollarda o'quv ma'lumotlarini yig'ish qimmat yoki murakkab. Shunday qilib, 
ko'plab domenlardagi ma'lumotlardan foydalangan holda yuqori samarali o'quvchilarni 
o'rgatish uchun transferli o'rganishdan foydalanish kerak. Transferni o'rganish bir nechta 
manba vazifalaridan ma'lumot olish va uni maqsadli vazifaga qo'llash imkonini beruvchi 
funktsiyalar, domenlar va tarqatishlarni ajratish usuli sifatida taqdim etilgan edi. 
Baholangan transfer o'rganish yechimlari ma'lumotlar hajmidan mustaqil bo'lib, katta 
ma'lumotlar sharoitida foydalanish mumkin. Transfer o'rganishning foydasi shundaki, u 
yangi masalalarni tezroq hal qilish uchun avval olingan bilimlardan oqilona foydalanishi 
mumkin.
Faol ta’lim


Yorliqsiz katta hajmdagi ma'lumotlardan o'rganish ko'p vaqt talab qiladi va qiyin. 
Faol o'rganish bu muammoni yorliqlash uchun eng muhim holatlarning kichik guruhini 
tanlash orqali hal qilishga intiladi. Faol o'quvchining maqsadi iloji boricha kamroq 
yorliqli holatlarni qo'llash orqali aniqlikka erishish, shuning uchun etiketli ma'lumotlarni 
kuzatib 
borish 
xarajatlarini 
kamaytirishdir. 
An'anaviy 
passiv 
o'rganishda 
qo'llaniladiganlardan ko'ra samaraliroq bo'lgan so'rovlar algoritmlari yordamida kamroq 
etiketli namunalar bilan qulay tasniflash ko'rsatkichlariga erishish mumkin edi .
Yadroga asoslangan ta'lim
Samarali chiziqli bo'lmagan ta'lim algoritmlarini loyihalashda erishilgan yutuqlar 
yadroga asoslangan ta'limni so'nggi o'n yillikda ishlov berish qobiliyatini oshirish uchun 
ayniqsa kuchli vositaga aylantirdi. Yadroga asoslangan mashinani o'rganishda biz 
ob'ektlar yoki tasvirlarning o'xshashligini aniqlash uchun ko'p sonli xususiyatlarni 
tekshirish o'rniga, bitta yadro funktsiyasini ko'rib chiqamiz. Yadro funktsiyasi o'rganish 
yondashuvini yaratish va tasniflagich sifatida mo'ljallangan natijani olish uchun tasvirlar 
va teglar bilan birlashtiriladi.
Katta ma'lumotlar deganda o'rtacha vaqt ichida an'anaviy IT, dasturiy va apparat 
vositalaridan foydalangan holda tushunish, qo'lga olish, boshqarish yoki tahlil qilish qiyin 
bo'lgan ma'lumotlar to'plami tushuniladi. Boshqacha qilib aytadigan bo'lsak, Katta 
ma'lumotlar relyatsion an'anaviy metodologiyalar yordamida tahlilni samarali amalga 
oshirishga to'sqinlik qiladigan hajmli, olish tezligi yoki formatli ma'lumotlar yoki 
gorizontal kattalashtirishning muhim usullaridan foydalangan holda samarali qayta 
ishlanishi mumkin bo'lgan ma'lumotlar sifatida tavsiflanadi.
Katta ma'lumotlar tushunchasini u bilan bog'liq bo'lgan turli xil V-larni tushunish 
orqali aniqroq aniqlash mumkin. Bu V.lar katta maʼlumotlarni boshqarish tizimlari duch 
keladigan asosiy oʻlchovlar (qiyinchiliklar). Ushbu o'lchamlar quyidagicha aniqlanadi:
Terabaytdan zettabaytgacha bo'lgan soniyada ishlab chiqarilgan juda katta 
ma'lumotlar. Uni tahlil qilish uchun tegishli vositalarni ishlab chiqish uchun saqlash va 
qayta ishlash modellarini qayta ko'rib chiqish kerak. Taqsimlangan tizimlar butun dunyo 


bo'ylab ma'lumotlar bazalarida ma'lumotlarni saqlash va tahlil qilish uchun katta 
ma'lumotlarda qo'llaniladi.
Bu atama talablarni qondirish uchun ma'lumotlarni yaratish va qayta ishlash tezligini 
anglatadi. An'anaviy tahlillar real vaqt rejimidagi ma'lumotlarga qaramlikning ortishi 
bilan shubhalanadi , chunki ma'lumotlar juda katta va doimiy harakatda.
Ma'lumotlar turli manbalardan kelib chiqishi va turli shakllarga ega bo'lishi 
mumkinligi sababli, asosiy muammo - ma'lumotlar formatining mos kelmasligi. Endi 
ma'lumotlar bir nechta formatlarda mavjud, jumladan, tuzilgan, yarim tizimli, tuzilmagan 
va hatto murakkab tuzilgan ma'lumotlar. Ma'lumotlar formatlarining xilmaxilligi tufayli 
an'anaviy tahliliy usullar katta ma'lumotlarni boshqara olmaydi. Tahlil uchun 
ma'lumotlarni tayyorlash uchun samarali texnikani loyihalash zarur bo'lib, ular juda katta 
vaqt va kuch talab qiladi.
Olingan ma'lumotlarning sifati sezilarli darajada farq qiladi. U ma'lumotlarning 
noto'g'riligini, shovqinlarini, anormalliklarini va boshqalarni ko'rsatadi. Bu tahlilning 
to'g'riligiga ta'sir qiladi. Haqiqiylikni saqlash tizimda nuqsonli ma'lumotlarni to'plamaydi. 
Qiymat haqiqatga ta'sir qilishi mumkin.
Oʻzgaruvchanlik 
katta 
maʼlumotlarning 
yangi 
oʻlchami 
tomonidan 
kiritilgan.“Oʻzgaruvchanlik” atamasi maʼlumotlar oqimi tezligining oʻzgarishini 
bildiradi. Katta ma'lumotlarning tezligi ko'pincha tartibsiz bo'lib, vaqti-vaqti bilan 
cho'qqilar va pastliklar bo'ladi.
"Ma'lumotlarning haqiqiyligi" va "ma'lumotlarning haqiqiyligi" atamalari ko'pincha 
xuddi shunday qo'llaniladi. Ular bir xil tushuncha emas, lekin ular o'xshashdir. Haqiqiylik 
deganda ma'lumotlarning to'g'riligi va ulardan maqsadli foydalanish bo'yicha aniqligi 
tushuniladi. Boshqacha qilib aytadigan bo'lsak, ma'lumotlarning to'g'riligi bilan bog'liq 
muammolar bo'lmasligi mumkin, ammo tushunilmagan bo'lsa, u haqiqiy bo'lmasligi 
mumkin.
Katta ma'lumotlarning o'zgaruvchanligi haqida gap ketganda, tashkilotlarda har kuni 
qo'llaniladigan tuzilgan ma'lumotlarni saqlash siyosatini osongina eslash mumkin. 
Saqlash muddati tugaganidan keyin uni osongina yo'q qilish mumkin.


Qiymat Oracle tomonidan katta ma'lumotlarning belgilovchi xususiyati sifatida 
taqdim etilgan. "Qimmat" atamasi ma'lumotlardan olingan qimmatli bilimlarni bildiradi. 
Ma'lumki, ma'lumotlar chuqur darajada muhimdir. Biroq, ahamiyati burg'ulash kerak.
Katta ma'lumotlarda umuman sakkizta V mavjud. E'tibor bering, bu V lar 
o'zgarmasdir; ular yaqin kelajakda o'zgarishi mumkin.
Mavjud asboblarning aksariyati oqimni qayta ishlashga, interaktiv tahlilga va 
partiyani qayta ishlashga qaratilgan. Hozirgi vaqtda katta ma'lumotlarni tahlil qilish 
uchun foydalaniladigan ba'zi vositalar ushbu bo'limda ko'rib chiqiladi.
Hadoop va MapReduce bir-birini almashtirib bo'lmaydigan atamalar emas; Hadoop 
aslida MapReduce kontseptsiyasini amalga oshirishdir. MapReduce - bu katta hajmdagi 
ma'lumotlarni qayta ishlash uchun bo'lish va egallash texnikasidan foydalanadigan model. 
Hadoop ikkita tugundan iborat: master va ishchi, MapReduce esa ikkita asosiy bosqichni 
bajaradi: Map va Reduce. Asosiy tugun kiruvchi ma'lumotlarni kichik muammolarga 
ajratadi, ular keyinchalik ishchi tugunlarga tayinlangan Xarita bosqichida bo'ladi. Keyin 
barcha kichik muammolarning natijalari asosiy tugun tomonidan qisqartirish bosqichida 
birlashtiriladi .
Bu ilg'or va tezkor tahlillar uchun mo'ljallangan xotiradagi ma'lumotlarni qayta 
ishlash mexanizmi. U pastdan yuqoriga stsenariydan unumdorlikni oshirish uchun 
ishlatiladi. Xotiradagi hisoblash va boshqa yaxshilanishlar tufayli Spark, ayniqsa, katta 
hajmdagi ma'lumotlarni qayta ishlash uchun Hadoop'dan 100 marta tezroq ishlaydi. 
Ma'lumotlar diskda saqlanganida, Apache Spark ham tez ishlaydi. Endi u keng miqyosda 
diskda tartiblash bo'yicha jahon rekordini saqlab turibdi. Spark katta ma'lumotlar 
muhitida bajarish uchun joriy o'quv vazifalarini qayta bajaradigan umumiy o'rta dastur 
qatlamini taqdim etadi. Bu kabi o'rta dastur qatlami odatda o'rganishning turli vazifalari 
uchun foydali bo'lgan umumiy operatsiyalar va primitivlarni o'z ichiga oladi.
Bu real vaqtda taqsimlangan hisoblash imkonini beruvchi dastur. O'rnatish va 
ishlatish oson. U bilan har qanday dasturlash tilidan foydalanish mumkin. U nosozliklarga 
chidamli va kengaytirilishi mumkin.


Qsimlangan va yuqori unumli hisoblash uchun oqim dizayni d uchun ishlov berish 
mexanizmi . Kech kelgan ma'lumotlar bilan ham, u aniq ishlaydi. Ajoyib kechikish va 
o'tkazish qobiliyatini saqlab qolgan holda minglab tugunlarga o'lchash oson .
H2O xotiradagi ma'lumotlarni qayta ishlash uchun eng tezkor vosita bo'lib, u katta 
ma'lumotlarning prognozini tahlil qilish uchun ishlatiladi. U bir nechta tugunlarda ishlashi 
mumkin bo'lgan taqsimlangan, kengaytiriladigan va ochiq kodli dasturiy ta'minotdir.
Ushbu vositalarni baholashda qo'llab-quvvatlanadigan til, ijro modeli, tegishli 
mashinani o'rganish vositalari, xatolarga chidamlilik va kechikish hisobga olinadi.
Katta ma'lumotlar turli sohalarda mavjudligini his qildi. U ommaviy axborot 
vositalari, o'yin-kulgi, aloqa, sog'liqni saqlash, davlat xizmati, ta'lim, sug'urta, ulgurji 
savdo, marketing, transport, kommunal xizmatlar, energetika, tabiiy resurslar va ishlab 
chiqarish va boshqa sohalarda qo'llanilgan.
Katta ma'lumotlar tibbiy yordamda tibbiy ma'lumotlarni samarali saqlash, qayta 
ishlash, so'rash va tahlil qilish uchun ishlatiladi. Sog'liqni saqlash sanoati tibbiy katta 
ma'lumotlar ilovalari tomonidan sezilarli darajada ta'sirlanadi. Bu klinik sinov 
ma'lumotlarini tahlil qilish, kasallik namunalarini tahlil qilish, bemorlarni parvarish qilish 
tahlili va sifati, dori-darmonlarni tadqiq qilish va ishlab chiqish va boshqalar bo'lishi 
mumkin.
Masalan, Nyu-Yorkdagi Sinay tog'idagi tibbiyot markazi Ayasdining katta 
ma'lumotlar vositalaridan ba'zi bakteriyalar turlarining antibiotiklarga chidamliligini 
aniqlash uchun barcha ichak tayoqchasi genetik ketma-ketliklarini, shu jumladan 
millionga yaqin DNK o'zgarishlarini o'rganish uchun foydalanadi. Ma'lumotlar 
xususiyatlarini tahlil qilish uchun Ayasdi topologik ma'lumotlar tahlilini, yangi 
matematik tadqiqot yondashuvini qo'llaydi.
Genomik ma'lumotlar, elektron tibbiy yozuvlar, tibbiy yordamni kuzatish uchun 
asboblar va kiyinishi mumkin bo'lgan sensorli qurilmalar sog'liqni saqlash sohasidagi 
katta ma'lumotlarning manbalaridir.


Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari tarmoq jamoatchilik 
fikrini tahlil qilish, tarmoq ma'lumotlarini yig'ish va tahlil qilish, ijtimoiylashtirilgan 
marketing va hukumat qarorlarini qabul qilishni qo'llabquvvatlashdir.
Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari hukumat qarorlarini 
qabul qilishni qo'llab-quvvatlash, ijtimoiy marketing, tarmoqdagi jamoatchilik fikrini 
o'rganish va tarmoq ma'lumotlarini yig'ish va tahlil qilishdir.
Onlayn ijtimoiy tarmoq xizmatlari uchun katta ma'lumotlarning boshqa manbalari 
qatorida tezkor chatlar, onlayn ijtimoiy, mikrobloglar va umumiy maydon 
foydalanuvchilarning turli xatti-harakatlarini aks ettiradi.
Qo'shma Shtatlardagi Santa Kruz politsiya departamenti ma'lumotlardan 
foydalangan holda bashoratli tahlilni sinab ko'rdi. Politsiya departamenti jinoyat usullari 
va shakllarini aniqlashi mumkin, shuningdek, ijtimoiy tarmoqlarni tahlil qilish orqali yirik 
shaharlardagi jinoyat stavkalarini taxmin qilishi mumkin.
Amerika Qo'shma Shtatlari Ta'lim Departamenti o'quvchilar faoliyatini baholash 
uchun katta ma'lumotlardan foydalanadi. Talabalarning har bir mavzu bo'yicha qancha 
vaqt sarflashlarini ko'rish uchun "klik naqshlari" kuzatiladi. Trenerning kuchga kirishi 
talabalar soni, berilgan mavzu va joylashuvi va boshqa narsalar bilan o'lchanishi mumkin.
Katta ma'lumotlar korxonalarga ko'plab sohalarda ishlab chiqarish samaradorligini 
va raqobatini yaxshilashga yordam beradi:
Elektron tijorat
Chuqur iste'molchi profillarini yaratish uchun korxonalar mijozlar ma'lumotlarini, 
shuningdek, xatti-harakatlar ma'lumotlarini baholaydilar. Ushbu profillar turli maqsadli 
auditoriya uchun kontent yaratish, so'rov bo'yicha materiallarni tavsiya qilish va kontent 
sifatini kuzatish uchun foydali bo'lishi mumkin.
"Spotify" iste'molchilarning xatti-harakatlari haqidagi ma'lumotlarni to'playdi va 
musiqa bo'yicha aniq tavsiyalar berish uchun katta ma'lumotlar Hadoop vositalari 
yordamida tahlil qiladi.
Ushbu tadqiqotda qo'llaniladigan metodologiya ushbu bo'limda tasvirlangan. 
Mualliflar tegishli maqolalar uchun IEEE, SpringerLink, Google Scholar va boshqalar 


kabi taniqli ma'lumotlar bazalarini qidirdilar. “Mashinani oʻrganish”, “Katta 
maʼlumotlar”, “Algoritmlar” va “Qayta ishlash” qidiruv kalit soʻzlari qatoriga kirdi. 
Mualliflar ma'lumotlarni ajratib olishning ikkita usulidan foydalanganlar: 1. Tadqiqotni 
chiqarish va 2. Tadqiqot skriningi. Mualliflar tadqiqot jarayoni davomida nomuvofiq 
sarlavhalarga asoslangan ko'plab maqolalarni o'chirib tashladilar va 51 ta maqola qoldirdi. 
Shundan so'ng mualliflar har bir maqolaning konspekti va xulosasini o'qib chiqdilar. 
Natijada, tadqiqot doirasidan tashqarida bo'lgan ba'zi maqolalar chiqarib tashlandi. Katta 
ma'lumotlarni qayta ishlash uchun ishlatiladigan mashinani o'rganish bilan bog'liq 
adabiyotlarda tavsiflangan jihatlarni batafsil ko'rib chiqish amalga oshirildi.
Ushbu bo'lim katta ma'lumotlarni qayta ishlash uchun mashinani o'rganish 
yondashuvlarining eng muhim muammolarini ko'rib chiqadi.
1-rasmda katta ma'lumotlar uchun mashinani o'rganish texnikasi bilan bog'liq 
muammolarni bir necha tomondan ko'rib chiqishni o'z ichiga olgan batafsil stsenariyni 
beramiz . U (i) keng miqyosli ma'lumotlar uchun o'rganish, (ii) turli tuzilgan ma'lumotlar 
uchun o'rganish, (iii) yuqori tezlikdagi oqimli ma'lumotlar uchun o'rganish, (iv) noaniq 
va to'liq bo'lmagan ma'lumotlar uchun o'rganish va (v) past qiymatli ma'lumotlarni 
o'rganishni o'z ichiga oladi. zichlik ma'lumotlari.

Yüklə 111,17 Kb.

Dostları ilə paylaş:
1   2   3   4   5




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin