Mavzu: ma’lumotlarga ishlov berish. Ma'Lumotlarni tozalash va tayyorlash



Yüklə 24,3 Kb.
tarix07.01.2024
ölçüsü24,3 Kb.
#206958
4-dkkk


19- AMALIYOT
MAVZU: MA’LUMOTLARGA ISHLOV BERISH.MA'LUMOTLARNI TOZALASH VA TAYYORLASH
Data Science muhandisi sifatida sizning 80% vaqtingiz ma'lumotlarga ishlov berish bilan o'tadi. Jumladan, ma'lumotlarni o'qish, kamchiliklarni bartaraf etish, ma'lumotlarni shakl o'zgartirish, matnlar bilan ishlash va hokazo.
Navbatdagi bo'limda aynan shu mavzularga batafsil to'xtalamiz.
Mavjud bo'lmagan qiymatlar bilan ishlash
Ko'p holatlarda jamlangan ma'lumotlar to'liq bo'lmaydi. Minglab qatorlar orasida albatta qandaydur qiymatlar tushib qolishi tabiiy (odam xatosi, ma'lumot mavjud emasligi va hokazo). pandas bunday qiymatlar bilan ishlashni bir muncha osonlashtirsada, yakuniy datasetda bu akmchiliklarni albatta bartaraf etish kerak.
pandas DataFramelar mavjud bo'lmagan sonli qiymatlar o'rniga NaN (not available - mvajud emas) degna qiymatni qo'yib ketadi va statistik ma'lumotlarni chiqarishda bunday qiymatlarni inobatga olmaydi.
Bunday holatda sizning birinchi savolingiz "Nima uchun mu qiymat mavjud emas? Ma'lumot yozib olinmaganmi yoki umuman mavjud emasmi?" bo'lishi kerak. Misol uchun, siz so'rovnoma yordamida odamlar haqida ma'lumotlar jamlayapsiz, so'rovnomangizda "nikohdan o'tgan yilingiz" degan bo'lim bor. Tabiiyki, turmush qurmaghanlar uchun bu qiymat mabjud bo'lmaydi va bu xato emas. Aksincha, "tug'ilgan yilingiz" qiymati mavjud bo'lmasligi esa, ma'lumot mavjud lekin yozib olinmaganini anglatadi.
Data Science muhandisi sifatida siz mavjud bo'lmagan ma'lumotlarni topishga, buning imkoni bo'lmasa ularni approksimasiya qilishga (tahminiy qiymat topishga) harakat qilishingiz, buni ham iloji bo'lmasa bunday ustun (yoki qatorlardan) voz kechishni hal qilishingiz kerak bo'ladi.




Xulosa: Mavjud bo'lmagan qiymatlar bilan ishlash
Ko'p holatlarda jamlangan ma'lumotlar to'liq bo'lmaydi. Minglab qatorlar orasida albatta qandaydur qiymatlar tushib qolishi tabiiy (odam xatosi, ma'lumot mavjud emasligi va hokazo). pandas bunday qiymatlar bilan ishlashni bir muncha osonlashtirsada, yakuniy datasetda bu akmchiliklarni albatta bartaraf etish kerak.

20- AMALIYOT


MAVZU: MA’LUMOTLARGA ISHLOV BERISH.MA'LUMOTLARNI TOZALASH VA TAYYORLASH





21-Amaliyot


Mavzu: Phyton Datetime(Python pandasda imkoniyati yordamida dataframe larda vaqt bila Python'da datetime moduli, vaqt bilan ishlash uchun imkoniyatlar taqdim etadi. Pandas esa bu moduldan foydalangan holda, DataFrames obyektlarini ishlab chiqarish, ma'lumotlarni filtirlash va tartiblash, qo'shimcha ustunlar qo'shish va boshqa amallarni bajarish uchun keng imkoniyatlarga ega. Bu yerda, datetime modulini va Pandas'ning datetime obyektlarini qanday ishlatishni ko'rib chiqamiz:
Bu misolda, datetime modulidan foydalanib vaqtning joriy holatini aniqlaganman. Keyin, Pandas DataFrame yaratib, Birthdate ustunini datetime formatiga o'tkazib olamiz. DataFrame'ga CurrentTime ustunini qo'shib, datetime formatida joriy vaqtini qo'shamiz. dt atributi orqali DataFrame ustunlarini ajratib olish va ma'lumotlarni filtirlash uchun yaxshi foydalaniladi. Misolda, Year, Month, va Day ustunlarini yaratib olish orqali tug'ilgan sanalarni ajratib olish imkoniyati mavjud. Bu qisqa misol, datetime moduli va Pandas'ning datetime funksiyalarini qanday ishlatishni namoyish qiladi. Aslida, bu modullar yordamida amaliy topshiriqlarni bajarish oson va samarali bo'ladi.
n ishlash)













Xulosa: Bu xulosa, DataFrame'da vaqt bilan ishlashning asosiy qismlarini namoyish etadi. datetime moduli va Pandas bu xususiyatlarni taqdim etadi va ularga qo'shimcha funksiyalar, misollar va amallar qo'shish orqali iste'molchilarga keng imkoniyatlar beradi.

22-Amaliyot


Mavzu: Ma’lumotlar to`plami ustida ierarxik indekslash.
Ierarxik indekslash (hierarchical indexing) ma'lumotlar to'plami ustida boshqa bir darajali (nested) indekslashni ifodalaydi. Bu, DataFrame yoki Series obyektlarining indekslari bo'lishi mumkin, va bu indekslar bir-biriga bog'liq bo'lishi mumkin. Ierarxik indekslashning muhimligi ma'lumotlar tahlili va ma'lumotlar bilan ishlashni osonlashtirish, ma'lumotlarni tuzatishni, filtrlashni va boshqa amallarni bajarishni osonlashtirishda yashanadi. Bu misol, "Year" va "City" ustunlaridan iborat ierarxik indeksni o'rnatadi. set_index metodidan foydalanib indekslashni o'rnatishni amalga oshiradi. Keyin, indeks orqali ma'lumotlarni chaqirishni o'rganish uchun .loc ni qo'llaymiz. Ierarxik indekslash ma'lumotlar to'plamida qo'shimcha imkoniyatlar yaratadi. U bu ma'lumotlar ustida amallarni bajarishni osonlashtiradi va ma'lumotlarni o'rganish va tahlil qilishni qulaylashtiradi.




Xulosa: Ierarxik indekslash (hierarchical indexing) Pandas'da ma'lumotlar to'plami ustida qo'shimcha tahlil va amallarni bajarish uchun keng imkoniyatlar yaratadi. Bu, DataFrame yoki Series obyektlarining indekslarini ierarxik strukturaga joylashni ta'minlaydi. Bu struktura bir nechta darajadagi (nested) indekslardan iborat bo'lib, ma'lumotlarga oson murojaatni ta'minlaydi. Ierarxik indekslash quyidagi asosiy xususiyatlarni taqdim etadi: Qo'shimcha Murojaat: Ma'lumotlarga ierarxik indekslar orqali qulay murojaatni ta'minlaydi. Murojaatlar bir nechta darajada bo'lishi mumkin. Statistik Tahlil va Filtrlash: Ierarxik indekslash, ma'lumotlarni iqtisodiy, ijadkiy va boshqa kriteriyalarga ko'ra statistik tahlil qilish va filtratsiya qilish imkonini ta'minlaydi. Ma'lumotlar Bilan Ishlash Qulayligi: Ierarxik indekslash, ma'lumotlar to'plami ustida ishlashni qulaylashtiradi. Ma'lumotlarni qidirish, o'zgartirish va boshqa amallarni bajarish uchun arzon va samarali yechimlar beradi.

23-Amaliyot


Mavzu: Vizualizatsiya. Grafika. Matplotlib kutubxonasi
Nazariy qism.
Data Science muhandisi uchun ma'lumotlarni grafik ko'rinishida taqdim qila bilish
muhim ko'nikmalardan biri hisoblanadi. Ayniqsa, oddiy odamlar (buyurtmachi,
rahbar, hamkasblar) uchun sonlar va jadvallardan ko'ra grafiklarni tushunish
osonroq kechadi.
Muhandis sifatida, ba'zida o'zimiz uchun ham grafiklardan qo'shimcha ma'lumotlar
olishimiz mumkin. Grafiklar nafaqat ma'lumotlarga ishlov berish balki yakuniy
natijalarni taqdim qilishda ham faol ishlatiladi.
Pythonda grafiklar bilan ishlash uchun eng mashhur kutubxonalar bu matplotlib va
u asosida qurilgan seaborn kutubxonalaridir.
Ushbu darsimizda matplotlib bilan tanishamiz.
Matplotlib nima?
Matplotlib - bu python-da vizualizatsiya uchun yordamchi dastur bo'lib xizmat
qiluvchi past darajadagi grafik chizmalar kutubxonasi.
Matplotlib Jon D. Hunter tomonidan yaratilgan.
Matplotlib ochiq manba va biz undan erkin foydalanishimiz mumkin.
Matplotlib asosan python-da yozilgan, bir nechta segmentlar C, Objective-C va
Javascript for Platform mosligida yozilgan.
Grafiklarning turli parametrlarini o'zgartirish yordamida uning tashqi ko'rinishini
ham o'zgartirish mumkin:
linewidth - chiziq qalinligi (0.5 dan 3 gacha)
linestyle - chiziq stili
- - oddiy chiziq
-- - yuliq chiziq
-. - chiziq va nuqta
: - nuqtali chiziq














Xulosa: Bu misol, Matplotlib kutubxonasini foydalanib, sin(x) va cos(x) funksiyalarining grafiklarini yaratadi. Bu kodda, plot funksiyasi orqali koordinata o'qlari (x va y) kiritilgan. Keyin, koordinatalar ustida plot funksiyasi yordamida grafiklar yaratiladi. label, color, linestyle, linewidth va boshqa xususiyatlar orqali grafiklar konfiguratsiyalash uchun imkoniyatlar mavjud. Matplotlib bilan yaratilgan vizualizatsiyalarni saqlash, tahrirlash va ulash uchun qo'shimcha funksiyalar ham mavjud. Bu misolda, title, xlabel, ylabel, legend va boshqa funksiyalar orqali grafikni konfiguratsiyalashni ko'rib chiqamiz.

24-Amaliyot


Mavzu: Chiziqli grafik Nazariy qismi.
Tasvir ustunligi effekti haqida biror narsa bilasizmi? Bu tasvir va rasmlar odam tomonidan so'z yoki matndan ko'ra yaxshiroq eslab qoladigan hodisa. Bu ko'plab tajribalar bilan tasdiqlangan. Masalan, tibbiyot sohasida olib borilgan tadqiqotlar shuni ko'rsatdiki, odam dorining ko'rsatmalarini, agar unda rasm bo'lsa, yaxshiroq tushunadi. Xususan, dori tavsiflovchi oddiy matn 70% ga, tasvirli matn esa 95% ga so'riladi.
Boshqa bir tadqiqot shuni ko'rsatdiki, odamlarning 65% vizual odamlardir, ya'ni. ko'pchilik ma'lumotni tasvirlar orqali yaxshiroq qabul qiladi [V. Bredford, 2004]. Vizual idrok ma'lumotlarni uzatishning eng tezkor usullaridan biridir. Miya ongsiz ravishda ma'lumotni qayta ishlaydi, agar u rasmlar, piktogrammalar, kulgichlar va boshqalar ko'rinishida taqdim etilsa. Shu bilan birga, tasvirning ma'nosini tushunish uchun odamga atigi 150 millisekund kerak bo'ladi.
lar. Seaborn kutubxonasi
















Yüklə 24,3 Kb.

Dostları ilə paylaş:




Verilənlər bazası müəlliflik hüququ ilə müdafiə olunur ©azkurs.org 2024
rəhbərliyinə müraciət

gir | qeydiyyatdan keç
    Ana səhifə


yükləyin