وصف المشروع: تحليل وتنظيف بيانات العملاء باستخدام Python
تم تنفيذ هذا المشروع على بيئة Google Colab باستخدام لغة Python ومجموعة من المكتبات المتخصصة في تحليل البيانات، وهي:
NumPy للعمليات الرياضية.
Pandas لمعالجة البيانات.
Matplotlib & Seaborn لعرض البيانات من خلال رسوم بيانية.
البيانات المستخدمة مأخوذة من ملف باسم:
fake_customer_data_with_errors.xlsx
ويحتوي على بيانات افتراضية لعملاء، تم إدخال أخطاء متعمدة فيها لتطبيق خطوات التنظيف والتحليل.
محتويات البيانات:
رقم العميل (CustomerID).
اسم العميل (Name).
العمر (Age) – يحتوي على بيانات ناقصة أو قيم غير صحيحة مثل أعمار سالبة.
النوع (Gender) – به بيانات ناقصة وصياغات مختلفة.
البريد الإلكتروني (Email).
رقم الهاتف (Phone) – بعض القيم مفقودة.
قيمة المشتريات (PurchaseAmount).
تاريخ الشراء (PurchaseDate).
فئة المنتج (ProductCategory).
تقييم العميل (Rating).
أعمدة إضافية غير ضرورية (مثل Unnamed, Gender.1).
️ خطوات المشروع:
استكشاف البيانات للتعرف على طبيعتها والأخطاء الموجودة.
تنظيف البيانات من خلال:
معالجة القيم المفقودة (NaN).
تصحيح الأعمار غير المنطقية (مثل القيم السالبة).
توحيد صياغة النوع (ذكر/أنثى).
إزالة الأعمدة المكررة أو غير المفيدة.
تحليل البيانات مثل:
حساب متوسط المشتريات حسب العمر أو النوع.
تحديد المنتجات الأكثر مبيعًا.
التعرف على العملاء الأكثر إنفاقًا.
تصور البيانات عبر مخططات ورسوم بيانية لتوضيح الأنماط (توزيع الأعمار، المشتريات حسب الفئة، التقييمات…).
أهمية المشروع:
يوضح كيفية التعامل مع بيانات حقيقية تحتوي على أخطاء.
يعزز مهارات تنظيف البيانات (Data Cleaning) و تحليل البيانات (Data Analysis).
يمثل خطوة أساسية في أي مشروع متعلق بالتسويق أو أنظمة إدارة علاقات العملاء (CRM