Qabul qilingan ustundagi qiymatlarni yaxshilash.
Python 3
df['Qabul qilingan'] = df['Qabul qilingan'].str.replace('Qabul qilingan', '')
Ma'lumotlar to'plamidagi null qiymatlarni tekshirish uchun.
Python 3
df.columnsdagi col uchun:
temp = df[col].isnull().sum()
harorat > 0 bo'lsa:
print(f'Ustun {col} {temp} null qiymatlarni o'z ichiga oladi.')
Chiqish: Ustun daromadi 24 ta null qiymatdan iborat.
Endi, biz null qiymatlarni hisoblagandan so'ng va qiymatlar juda kam ekanligini bilsak, biz ularni tashlab yuborishimiz mumkin (bu ma'lumotlar to'plamiga unchalik ta'sir qilmaydi).
Python 3
df = df.dropna()
print("Jami etishmayotgan qiymatlar:", len(df))
Chiqish: Jami etishmayotgan qiymatlar: 2216
Har bir ustundagi noyob qiymatlarning umumiy sonini topish uchun data.unique() usulidan foydalanishimiz mumkin.
Python 3
df.nunique()
Chiqish:
Bu yerda biz butun ustunda yagona qiymatlarni o'z ichiga olgan ustunlar mavjudligini kuzatishimiz mumkin, shuning uchun ularning modelni ishlab chiqishda ahamiyati yo'q.
sana ustunini o'z ichiga olgan Dt_Customerustuni mavjud , biz 3 ta ustunga, ya'ni kun, oy, yilga aylantirishimiz mumkin.
Python 3
qismlar = df["Dt_Customer"].str.split("-", n=3, kengaytirish=To'g'ri)
df["kun"] = qismlar[0].astype('int')
df["oy"] = qismlar[1].astype('int')
df["yil"] = qismlar[2].astype('int')
Endi bizda barcha muhim funksiyalar mavjud, endi Z_CostContact, Z_Revenue, Dt_Customer kabi xususiyatlardan voz kechishimiz mumkin.
eksa=1,
inplace=To'g'ri)
Ma'lumotlarni vizualizatsiya qilish va tahlil qilish Ma'lumotlarni vizualizatsiya qilish - bu ma'lumot va ma'lumotlarni rasm yoki grafik formatda grafik tasvirlash. Bu erda biz yaxshiroq vizualizatsiya qilish uchun bar va hisoblash uchastkasidan foydalanamiz.
Python 3
suzuvchi, ob'ektlar = [], []
df.columnsdagi col uchun:
agar df[col].dtype == ob'ekt:
objects.append(col)
elif df[col].dtype == float:
floats.append(col)
chop etish (ob'ektlar)
chop etish (suzuvchi)
Chiqish: ["Ma'lumot", "Oilaviy_ahvol", "Qabul qilingan"]
['Daromad']
Ma'lumotlar turi - ob'ekt ustunlari uchun hisoblash sxemasini olish uchun quyidagi kodga qarang.
Python 3
plt.subplots(figsize=(15, 10))
i uchun col in enumerate(objects):
plt.subplot(2, 2, i + 1)
sb.countplot(df[col])
plt.show()
Keling, javoblarning qiymatlariga nisbatan xususiyatlarni taqqoslashni ko'rib chiqaylik.
Python 3
plt.subplots(figsize=(15, 10))
i uchun col in enumerate(objects):
plt.subplot(2, 2, i + 1)
sb.countplot(df[col], rang=df['Javob'])
plt.show()