Mashinani o'rganish
Ushbu bo'limda mashinani o'rganish (ML) va uning turli yondashuvlari, algoritmlari
va ilovalari haqida umumiy ma'lumot berilgan.
Mashinani o'rganish - bu "ta'lim tizimlari va algoritmlarining nazariyasi, ishlashi va
xususiyatlariga rasman e'tibor qaratadigan tadqiqot sohasi". U sun'iy intellekt, kognitiv
fan, optimal boshqaruv, axborot va optimallashtirish nazariyalari, statistika va fan,
matematika va muhandislikning boshqa sohalarida keng qo'llanilishiga ega. Mashinalarni
o'rganish bo'yicha tadqiqotlar birinchi navbatda ma'lumotlar prognozlarini yaratadigan
samarali, tezkor o'rganish algoritmlarini yaratishga qaratilgan. Hozirgi vaqtda har bir
kishi o'z qurilmalari yordamida xom ma'lumotlarni ishlab chiqarish imkonini bergan
texnologik davr tufayli ma'lumotlar eksponent ravishda o'sib bormoqda. Xom
ma'lumotlar shovqinli, singan, tuzilmagan va qarama-qarshi bo'lishi mumkin. Oldindan
ishlov berish ushbu ma'lumotlarni tozalash, o'zgartirish, ajratib olish va birlashtirish orqali
o'rganish uchun qulay formatga aylantiradi. Ishlash ko'rsatkichlarini yaxshilash uchun
o'quv ma'lumotlar to'plamidan foydalangan holda ba'zi faoliyatni amalga oshirayotganda,
bu o'rganish muammosi deb ataladi.
Mashinani o'rganish uch turga bo'linadi: nazorat ostida o'rganish, nazoratsiz
o'rganish va mustahkamlovchi o'rganish. Nazorat ostidagi taʼlim uchun kirishlar va
kutilgan natijalar bilan yorliqlangan oʻquv maʼlumotlari talab qilinadi.Aksincha, etiketli
taʼlim maʼlumotlari nazoratsiz oʻrganishni talab qilmaydi va faqat kirishlar moʻljallangan
natijalarsiz berilishi kerak. U etiketlanmagan ma'lumotlardagi yashirin ma'lumotlarni
topish uchun ishlatiladi, masalan, klaster tahlili. Kirish namunalarining o'xshashligini
tekshirib, nazoratsiz o'rganish algoritmi namunalar to'plamini alohida klasterlarga
tasniflaydi. Kuchli o'rganish (RL) tashqi dunyo bilan o'zaro ta'sirlardan olingan fikr-
mulohazalar asosida o'rganish imkonini beradi. U sinov va xatolik asosida ishlaydi,
o‘quvchi natijalar asosida qaysi strategiyadan foydalanishni belgilaydi. RL algoritmlari,
ayniqsa, o'quv ma'lumotlarining katta guruhiga ega bo'lganda, nazorat qoidalarini
oldindan ma'lumotga ega bo'lmagan holda o'rganishda samarali bo'ladi, biroq ular ba'zi
kamchiliklarga ega, ulardan biri ideal echimni topish bilan bog'liq muhim hisoblash
xarajatlaridir .
Reprezentatsiyani o'rganish
Ma'lumotlarning qimmatli va mazmunli tasvirlarini o'rganish vakillik o'rganishning
asosiy maqsadidir. O'rtacha o'lchamdagi o'rganilgan vakillik juda ko'p muqobil kiritish
konfiguratsiyasini qo'lga kiritishga qodir, bu esa hisoblash va statistik samaradorlikni
sezilarli darajada oshirishi mumkin. Mashinani o'rganish texnikasining muvaffaqiyati
ko'p jihatdan ma'lumotlarning qanchalik yaxshi ifodalanishiga bog'liq .
Chuqur o'rganish
Chuqur o'rganish - bu sun'iy neyron tarmoqlari deb ataladigan miyaning funktsiyasi
va tuzilishi ta'sir qiladigan algoritmlarga tayanadigan mashinani o'rganish sohasi. Sayoz
tuzilgan ta'lim arxitekturalariga tayanadigan ko'pgina klassik o'rganish usullaridan farqli
o'laroq, chuqur o'rganish birinchi navbatda ierarxik tasvirlarni avtomatik ravishda
o'rganish uchun chuqur arxitekturada nazorat qilinadigan va/yoki nazoratsiz
algoritmlardan foydalanadi. Chuqur o'rganish, qo'shimcha misollar bilan o'rgatish orqali
modelning chuqurligini yoki tasvirlash qobiliyatini kengaytirish orqali model ishlashini
yaxshilash xususiyatiga ega. Katta ma'lumotlar tahlilining xilma-xilligi va hajmi bilan
ishlash uchun chuqur o'rganish arxitekturasi va algoritmlaridan foydalanish maqsadga
muvofiqdir. Chuqur o'rganishning va'dalaridan biri shundaki, xususiyatlarni o'rganish va
ierarxik xususiyatlarni ajratib olish usullari qo'lda xususiyatlarni tanlash o'rnini bosishi
mumkin.
Tarqalgan va parallel ta’lim
O'rtacha vaqt ichida katta hajmdagi ma'lumotlarni qayta ishlash algoritmlarini
o'rganish qiyin bo'ladi; bunday holatda, taqsimlangan ta'lim istiqbolli ko'rinadi, chunki bu
o'rganish algoritmlarini kengaytirishning texnik usulidir. Klassik ta'lim paradigmasidan
farqli o'laroq, ma'lumotlar markaziy qayta ishlash maqsadida ma'lumotlar bazasida
to'planishi kerak, taqsimlangan ta'lim o'rganishni taqsimlangan tarzda amalga oshirishga
imkon beradi. Meta-o'rganish, qaror qabul qilish qoidalari, taqsimlangan kuchaytirish va
stacking umumlashtirish - bu taqsimlangan va parallel mashinani o'rganishning eng
mashhur yondashuvlaridan biri. Muhim printsip shundaki, taqsimlangan va parallel
o'rganish algoritmlari o'rganish qiyin bo'lgan vaziyatlarni birinchi o'ringa qo'yishi kerak.
Ta'limni uzatish
Ba'zi hollarda o'quv ma'lumotlarini yig'ish qimmat yoki murakkab. Shunday qilib,
ko'plab domenlardagi ma'lumotlardan foydalangan holda yuqori samarali o'quvchilarni
o'rgatish uchun transferli o'rganishdan foydalanish kerak. Transferni o'rganish bir nechta
manba vazifalaridan ma'lumot olish va uni maqsadli vazifaga qo'llash imkonini beruvchi
funktsiyalar, domenlar va tarqatishlarni ajratish usuli sifatida taqdim etilgan edi.
Baholangan transfer o'rganish yechimlari ma'lumotlar hajmidan mustaqil bo'lib, katta
ma'lumotlar sharoitida foydalanish mumkin. Transfer o'rganishning foydasi shundaki, u
yangi masalalarni tezroq hal qilish uchun avval olingan bilimlardan oqilona foydalanishi
mumkin.
Faol ta’lim
Yorliqsiz katta hajmdagi ma'lumotlardan o'rganish ko'p vaqt talab qiladi va qiyin.
Faol o'rganish bu muammoni yorliqlash uchun eng muhim holatlarning kichik guruhini
tanlash orqali hal qilishga intiladi. Faol o'quvchining maqsadi iloji boricha kamroq
yorliqli holatlarni qo'llash orqali aniqlikka erishish, shuning uchun etiketli ma'lumotlarni
kuzatib
borish
xarajatlarini
kamaytirishdir.
An'anaviy
passiv
o'rganishda
qo'llaniladiganlardan ko'ra samaraliroq bo'lgan so'rovlar algoritmlari yordamida kamroq
etiketli namunalar bilan qulay tasniflash ko'rsatkichlariga erishish mumkin edi .
Yadroga asoslangan ta'lim
Samarali chiziqli bo'lmagan ta'lim algoritmlarini loyihalashda erishilgan yutuqlar
yadroga asoslangan ta'limni so'nggi o'n yillikda ishlov berish qobiliyatini oshirish uchun
ayniqsa kuchli vositaga aylantirdi. Yadroga asoslangan mashinani o'rganishda biz
ob'ektlar yoki tasvirlarning o'xshashligini aniqlash uchun ko'p sonli xususiyatlarni
tekshirish o'rniga, bitta yadro funktsiyasini ko'rib chiqamiz. Yadro funktsiyasi o'rganish
yondashuvini yaratish va tasniflagich sifatida mo'ljallangan natijani olish uchun tasvirlar
va teglar bilan birlashtiriladi.
Katta ma'lumotlar deganda o'rtacha vaqt ichida an'anaviy IT, dasturiy va apparat
vositalaridan foydalangan holda tushunish, qo'lga olish, boshqarish yoki tahlil qilish qiyin
bo'lgan ma'lumotlar to'plami tushuniladi. Boshqacha qilib aytadigan bo'lsak, Katta
ma'lumotlar relyatsion an'anaviy metodologiyalar yordamida tahlilni samarali amalga
oshirishga to'sqinlik qiladigan hajmli, olish tezligi yoki formatli ma'lumotlar yoki
gorizontal kattalashtirishning muhim usullaridan foydalangan holda samarali qayta
ishlanishi mumkin bo'lgan ma'lumotlar sifatida tavsiflanadi.
Katta ma'lumotlar tushunchasini u bilan bog'liq bo'lgan turli xil V-larni tushunish
orqali aniqroq aniqlash mumkin. Bu V.lar katta maʼlumotlarni boshqarish tizimlari duch
keladigan asosiy oʻlchovlar (qiyinchiliklar). Ushbu o'lchamlar quyidagicha aniqlanadi:
Terabaytdan zettabaytgacha bo'lgan soniyada ishlab chiqarilgan juda katta
ma'lumotlar. Uni tahlil qilish uchun tegishli vositalarni ishlab chiqish uchun saqlash va
qayta ishlash modellarini qayta ko'rib chiqish kerak. Taqsimlangan tizimlar butun dunyo
bo'ylab ma'lumotlar bazalarida ma'lumotlarni saqlash va tahlil qilish uchun katta
ma'lumotlarda qo'llaniladi.
Bu atama talablarni qondirish uchun ma'lumotlarni yaratish va qayta ishlash tezligini
anglatadi. An'anaviy tahlillar real vaqt rejimidagi ma'lumotlarga qaramlikning ortishi
bilan shubhalanadi , chunki ma'lumotlar juda katta va doimiy harakatda.
Ma'lumotlar turli manbalardan kelib chiqishi va turli shakllarga ega bo'lishi
mumkinligi sababli, asosiy muammo - ma'lumotlar formatining mos kelmasligi. Endi
ma'lumotlar bir nechta formatlarda mavjud, jumladan, tuzilgan, yarim tizimli, tuzilmagan
va hatto murakkab tuzilgan ma'lumotlar. Ma'lumotlar formatlarining xilmaxilligi tufayli
an'anaviy tahliliy usullar katta ma'lumotlarni boshqara olmaydi. Tahlil uchun
ma'lumotlarni tayyorlash uchun samarali texnikani loyihalash zarur bo'lib, ular juda katta
vaqt va kuch talab qiladi.
Olingan ma'lumotlarning sifati sezilarli darajada farq qiladi. U ma'lumotlarning
noto'g'riligini, shovqinlarini, anormalliklarini va boshqalarni ko'rsatadi. Bu tahlilning
to'g'riligiga ta'sir qiladi. Haqiqiylikni saqlash tizimda nuqsonli ma'lumotlarni to'plamaydi.
Qiymat haqiqatga ta'sir qilishi mumkin.
Oʻzgaruvchanlik
katta
maʼlumotlarning
yangi
oʻlchami
tomonidan
kiritilgan.“Oʻzgaruvchanlik” atamasi maʼlumotlar oqimi tezligining oʻzgarishini
bildiradi. Katta ma'lumotlarning tezligi ko'pincha tartibsiz bo'lib, vaqti-vaqti bilan
cho'qqilar va pastliklar bo'ladi.
"Ma'lumotlarning haqiqiyligi" va "ma'lumotlarning haqiqiyligi" atamalari ko'pincha
xuddi shunday qo'llaniladi. Ular bir xil tushuncha emas, lekin ular o'xshashdir. Haqiqiylik
deganda ma'lumotlarning to'g'riligi va ulardan maqsadli foydalanish bo'yicha aniqligi
tushuniladi. Boshqacha qilib aytadigan bo'lsak, ma'lumotlarning to'g'riligi bilan bog'liq
muammolar bo'lmasligi mumkin, ammo tushunilmagan bo'lsa, u haqiqiy bo'lmasligi
mumkin.
Katta ma'lumotlarning o'zgaruvchanligi haqida gap ketganda, tashkilotlarda har kuni
qo'llaniladigan tuzilgan ma'lumotlarni saqlash siyosatini osongina eslash mumkin.
Saqlash muddati tugaganidan keyin uni osongina yo'q qilish mumkin.
Qiymat Oracle tomonidan katta ma'lumotlarning belgilovchi xususiyati sifatida
taqdim etilgan. "Qimmat" atamasi ma'lumotlardan olingan qimmatli bilimlarni bildiradi.
Ma'lumki, ma'lumotlar chuqur darajada muhimdir. Biroq, ahamiyati burg'ulash kerak.
Katta ma'lumotlarda umuman sakkizta V mavjud. E'tibor bering, bu V lar
o'zgarmasdir; ular yaqin kelajakda o'zgarishi mumkin.
Mavjud asboblarning aksariyati oqimni qayta ishlashga, interaktiv tahlilga va
partiyani qayta ishlashga qaratilgan. Hozirgi vaqtda katta ma'lumotlarni tahlil qilish
uchun foydalaniladigan ba'zi vositalar ushbu bo'limda ko'rib chiqiladi.
Hadoop va MapReduce bir-birini almashtirib bo'lmaydigan atamalar emas; Hadoop
aslida MapReduce kontseptsiyasini amalga oshirishdir. MapReduce - bu katta hajmdagi
ma'lumotlarni qayta ishlash uchun bo'lish va egallash texnikasidan foydalanadigan model.
Hadoop ikkita tugundan iborat: master va ishchi, MapReduce esa ikkita asosiy bosqichni
bajaradi: Map va Reduce. Asosiy tugun kiruvchi ma'lumotlarni kichik muammolarga
ajratadi, ular keyinchalik ishchi tugunlarga tayinlangan Xarita bosqichida bo'ladi. Keyin
barcha kichik muammolarning natijalari asosiy tugun tomonidan qisqartirish bosqichida
birlashtiriladi .
Bu ilg'or va tezkor tahlillar uchun mo'ljallangan xotiradagi ma'lumotlarni qayta
ishlash mexanizmi. U pastdan yuqoriga stsenariydan unumdorlikni oshirish uchun
ishlatiladi. Xotiradagi hisoblash va boshqa yaxshilanishlar tufayli Spark, ayniqsa, katta
hajmdagi ma'lumotlarni qayta ishlash uchun Hadoop'dan 100 marta tezroq ishlaydi.
Ma'lumotlar diskda saqlanganida, Apache Spark ham tez ishlaydi. Endi u keng miqyosda
diskda tartiblash bo'yicha jahon rekordini saqlab turibdi. Spark katta ma'lumotlar
muhitida bajarish uchun joriy o'quv vazifalarini qayta bajaradigan umumiy o'rta dastur
qatlamini taqdim etadi. Bu kabi o'rta dastur qatlami odatda o'rganishning turli vazifalari
uchun foydali bo'lgan umumiy operatsiyalar va primitivlarni o'z ichiga oladi.
Bu real vaqtda taqsimlangan hisoblash imkonini beruvchi dastur. O'rnatish va
ishlatish oson. U bilan har qanday dasturlash tilidan foydalanish mumkin. U nosozliklarga
chidamli va kengaytirilishi mumkin.
Qsimlangan va yuqori unumli hisoblash uchun oqim dizayni d uchun ishlov berish
mexanizmi . Kech kelgan ma'lumotlar bilan ham, u aniq ishlaydi. Ajoyib kechikish va
o'tkazish qobiliyatini saqlab qolgan holda minglab tugunlarga o'lchash oson .
H2O xotiradagi ma'lumotlarni qayta ishlash uchun eng tezkor vosita bo'lib, u katta
ma'lumotlarning prognozini tahlil qilish uchun ishlatiladi. U bir nechta tugunlarda ishlashi
mumkin bo'lgan taqsimlangan, kengaytiriladigan va ochiq kodli dasturiy ta'minotdir.
Ushbu vositalarni baholashda qo'llab-quvvatlanadigan til, ijro modeli, tegishli
mashinani o'rganish vositalari, xatolarga chidamlilik va kechikish hisobga olinadi.
Katta ma'lumotlar turli sohalarda mavjudligini his qildi. U ommaviy axborot
vositalari, o'yin-kulgi, aloqa, sog'liqni saqlash, davlat xizmati, ta'lim, sug'urta, ulgurji
savdo, marketing, transport, kommunal xizmatlar, energetika, tabiiy resurslar va ishlab
chiqarish va boshqa sohalarda qo'llanilgan.
Katta ma'lumotlar tibbiy yordamda tibbiy ma'lumotlarni samarali saqlash, qayta
ishlash, so'rash va tahlil qilish uchun ishlatiladi. Sog'liqni saqlash sanoati tibbiy katta
ma'lumotlar ilovalari tomonidan sezilarli darajada ta'sirlanadi. Bu klinik sinov
ma'lumotlarini tahlil qilish, kasallik namunalarini tahlil qilish, bemorlarni parvarish qilish
tahlili va sifati, dori-darmonlarni tadqiq qilish va ishlab chiqish va boshqalar bo'lishi
mumkin.
Masalan, Nyu-Yorkdagi Sinay tog'idagi tibbiyot markazi Ayasdining katta
ma'lumotlar vositalaridan ba'zi bakteriyalar turlarining antibiotiklarga chidamliligini
aniqlash uchun barcha ichak tayoqchasi genetik ketma-ketliklarini, shu jumladan
millionga yaqin DNK o'zgarishlarini o'rganish uchun foydalanadi. Ma'lumotlar
xususiyatlarini tahlil qilish uchun Ayasdi topologik ma'lumotlar tahlilini, yangi
matematik tadqiqot yondashuvini qo'llaydi.
Genomik ma'lumotlar, elektron tibbiy yozuvlar, tibbiy yordamni kuzatish uchun
asboblar va kiyinishi mumkin bo'lgan sensorli qurilmalar sog'liqni saqlash sohasidagi
katta ma'lumotlarning manbalaridir.
Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari tarmoq jamoatchilik
fikrini tahlil qilish, tarmoq ma'lumotlarini yig'ish va tahlil qilish, ijtimoiylashtirilgan
marketing va hukumat qarorlarini qabul qilishni qo'llabquvvatlashdir.
Ijtimoiy tarmoq xizmatlaridagi ba'zi katta ma'lumotlar ilovalari hukumat qarorlarini
qabul qilishni qo'llab-quvvatlash, ijtimoiy marketing, tarmoqdagi jamoatchilik fikrini
o'rganish va tarmoq ma'lumotlarini yig'ish va tahlil qilishdir.
Onlayn ijtimoiy tarmoq xizmatlari uchun katta ma'lumotlarning boshqa manbalari
qatorida tezkor chatlar, onlayn ijtimoiy, mikrobloglar va umumiy maydon
foydalanuvchilarning turli xatti-harakatlarini aks ettiradi.
Qo'shma Shtatlardagi Santa Kruz politsiya departamenti ma'lumotlardan
foydalangan holda bashoratli tahlilni sinab ko'rdi. Politsiya departamenti jinoyat usullari
va shakllarini aniqlashi mumkin, shuningdek, ijtimoiy tarmoqlarni tahlil qilish orqali yirik
shaharlardagi jinoyat stavkalarini taxmin qilishi mumkin.
Amerika Qo'shma Shtatlari Ta'lim Departamenti o'quvchilar faoliyatini baholash
uchun katta ma'lumotlardan foydalanadi. Talabalarning har bir mavzu bo'yicha qancha
vaqt sarflashlarini ko'rish uchun "klik naqshlari" kuzatiladi. Trenerning kuchga kirishi
talabalar soni, berilgan mavzu va joylashuvi va boshqa narsalar bilan o'lchanishi mumkin.
Katta ma'lumotlar korxonalarga ko'plab sohalarda ishlab chiqarish samaradorligini
va raqobatini yaxshilashga yordam beradi:
Elektron tijorat
Chuqur iste'molchi profillarini yaratish uchun korxonalar mijozlar ma'lumotlarini,
shuningdek, xatti-harakatlar ma'lumotlarini baholaydilar. Ushbu profillar turli maqsadli
auditoriya uchun kontent yaratish, so'rov bo'yicha materiallarni tavsiya qilish va kontent
sifatini kuzatish uchun foydali bo'lishi mumkin.
"Spotify" iste'molchilarning xatti-harakatlari haqidagi ma'lumotlarni to'playdi va
musiqa bo'yicha aniq tavsiyalar berish uchun katta ma'lumotlar Hadoop vositalari
yordamida tahlil qiladi.
Ushbu tadqiqotda qo'llaniladigan metodologiya ushbu bo'limda tasvirlangan.
Mualliflar tegishli maqolalar uchun IEEE, SpringerLink, Google Scholar va boshqalar
kabi taniqli ma'lumotlar bazalarini qidirdilar. “Mashinani oʻrganish”, “Katta
maʼlumotlar”, “Algoritmlar” va “Qayta ishlash” qidiruv kalit soʻzlari qatoriga kirdi.
Mualliflar ma'lumotlarni ajratib olishning ikkita usulidan foydalanganlar: 1. Tadqiqotni
chiqarish va 2. Tadqiqot skriningi. Mualliflar tadqiqot jarayoni davomida nomuvofiq
sarlavhalarga asoslangan ko'plab maqolalarni o'chirib tashladilar va 51 ta maqola qoldirdi.
Shundan so'ng mualliflar har bir maqolaning konspekti va xulosasini o'qib chiqdilar.
Natijada, tadqiqot doirasidan tashqarida bo'lgan ba'zi maqolalar chiqarib tashlandi. Katta
ma'lumotlarni qayta ishlash uchun ishlatiladigan mashinani o'rganish bilan bog'liq
adabiyotlarda tavsiflangan jihatlarni batafsil ko'rib chiqish amalga oshirildi.
Ushbu bo'lim katta ma'lumotlarni qayta ishlash uchun mashinani o'rganish
yondashuvlarining eng muhim muammolarini ko'rib chiqadi.
1-rasmda katta ma'lumotlar uchun mashinani o'rganish texnikasi bilan bog'liq
muammolarni bir necha tomondan ko'rib chiqishni o'z ichiga olgan batafsil stsenariyni
beramiz . U (i) keng miqyosli ma'lumotlar uchun o'rganish, (ii) turli tuzilgan ma'lumotlar
uchun o'rganish, (iii) yuqori tezlikdagi oqimli ma'lumotlar uchun o'rganish, (iv) noaniq
va to'liq bo'lmagan ma'lumotlar uchun o'rganish va (v) past qiymatli ma'lumotlarni
o'rganishni o'z ichiga oladi. zichlik ma'lumotlari.
Dostları ilə paylaş: |