تنظيف وتحليل بيانات (CSV) باستخدام Python + Excel
في هذا المشروع قمت بتنفيذ مراحل تنظيف البيانات باستخدام Python كما يلي:
استكشاف البيانات قبل التنظيف:
فحص أسماء الأعمدة ونوع كل حقل (Data Types).
تحديد القيم المفقودة (Null Values) في أعمدة مثل Gender و Prefix.
التحقق من وجود بيانات مكررة (Duplicates).
حذف عمود غير مهم للتحليل وهو CustomerKey.
معالجة القيم المفقودة والأخطاء:
إزالة الفراغات الزائدة في عمود Gender باستخدام str.strip() لتوحيد التباينات.
حذف السجلات التي تحتوي على قيمة فارغة في عمود Gender لضمان دقة التحليل.
إنشاء حقل جديد (Feature Engineering):
دمج Prefix + FirstName + LastName لإنشاء عمود جديد باسم FullName.
حذف الأعمدة الأصلية بعد الدمج لتقليل التشويش.
تصحيح نوع البيانات:
تحويل عمود BirthDate إلى تنسيق تاريخ صحيح (Datetime Format) باستخدام pd.to_datetime() مع معالجة الأخطاء.
حفظ البيانات بعد التنظيف:
تصدير الملف النهائي بعد التنظيف بصيغة CSV للاستخدام في مرحلة التحليل على Excel.
بعد الانتهاء من تنظيف البيانات باستخدام Python، قمت باستيراد الملف النهائي إلى Excel لتنفيذ مرحلة التحليل البصري، والتي شملت ما يلي:
حساب مؤشرات الأداء الرئيسية (KPIs) مثل:
متوسط الدخل السنوي للعملاء (Average Annual Income)
نسبة العملاء حسب النوع (Male vs Female Ratio)
نسبة المتزوجين مقابل غير المتزوجين (Marital Status Breakdown)
إنشاء Pivot Tables لعرض توزيع العملاء حسب:
مستوى التعليم (Education Level)
الوظيفة (Occupation)
عدد الأطفال (TotalChildren)
تصميم Dashboard تفاعلي يحتوي على 6 Charts رئيسية توضح:
توزيع الدخل حسب الحالة الاجتماعية (Income vs Marital Status)
العلاقة بين مستوى التعليم والوظيفة (Education vs Occupation)
مقارنة نسب ملاك المنازل مقابل غير المالكين (HomeOwner Status)
توزيع النوع حسب الفئة العمرية (Gender by Age Group)
العلاقة بين عدد الأطفال والدخل (Children Count vs Annual Income)
تصنيف الوظائف حسب مستوى التعليم (Occupation by Education Level)
النتيجة النهائية كانت ملف Excel تحليلي متكامل، منسّق بطريقة احترافية، ويحتوي على واجهة عرض واضحة تسهّل على أي مستخدم فهم البيانات واتخاذ القرارات بسرعة.