قمت بتنفيذ مشروع لتنظيف Dataset خاصة ببيانات العملاء تحتوي على أخطاء وتكرارات وقيم مفقودة. الهدف كان تجهيز البيانات لتكون صالحة للتحليل واتخاذ القرار.
الأدوات المستخدمة:
Python
Pandas
NumPy
Jupyter Notebook
الخطوات التي قمت بها:
استكشاف البيانات (shape, info, describe)
حذف الأعمدة غير الضرورية
إزالة القيم المكررة (Duplicates)
تنظيف وتوحيد قيم عمود Gender وتحويلها إلى صيغة موحدة
معالجة القيم المفقودة باستخدام المتوسط والقيم الافتراضية
تحويل أنواع البيانات (Age إلى رقم – PurchaseDate إلى تاريخ)
التعامل مع القيم غير المنطقية مثل الأعمار السالبة
حذف الصفوف التي تحتوي على بيانات غير صالحة بعد التنظيف
تجهيز Dataset نظيفة وجاهزة للتحليل
النتيجة:
تم تحويل البيانات الخام المليئة بالأخطاء إلى Dataset نظيفة ومنظمة، مع تحسين جودة البيانات وإعدادها للتحليل الإحصائي أو نماذج تعلم الآلة.