قمنا ببناء End-to-End AI Pipeline لتقسيم Retail Customers بناءً على Demographics وPurchasing Behavior.
بدأنا بمرحلة شاملة من Data Preprocessing، شملت التعامل مع Missing Values، وتنظيف Rare Categories، ومعالجة Outliers، بالإضافة إلى Feature Engineering اعتمادًا على Spending Patterns وPurchase Channels وCampaign Engagement. بعد ذلك قمنا ببناء Clustering وClassification Models بالاعتماد على البيانات بعد تنظيفها.
استكشفنا عدة تقنيات Clustering مثل K-Means وHierarchical Clustering وDBSCAN لاكتشاف Natural Customer Groups، ثم اخترنا Final Segmentation تتكوّن من 3 Economic Segments واضحة: Budget وMiddle وPremium.
بالاعتماد على هذه Clusters، درّبنا نموذج Logistic Regression لتصنيف New Customers تلقائيًا ضمن هذه Segments، وحقق النموذج Accuracy حوالي
97.8
%
97.8% على Test Set. كما قمنا بمقارنته مع نماذج أخرى مثل Decision Trees وRandom Forest، وحقق Logistic Regression أعلى Accuracy وأفضل Overall Performance بينها.
قمنا أيضًا بنشر المشروع من خلال Interactive Streamlit Web App، حيث يمكن للمستخدم:
إدخال Single Customer
أو رفع ملف CSV
والحصول على Predicted Segment وConfidence Score وKey Stats لكل مجموعة
مع إمكانية Visualize Segment Distributions وSpending Behavior