نفذت مشروع متكامل لمعالجة وتنظيف بيانات المبيعات بهدف تجهيزها لاستخدامها في نماذج تعلم الآلة للتنبؤ بما إذا كان العميل سيقوم بشراء أكثر من 3 منتجات في معاملة واحدة.
الخطوات المنفذة:
استكشاف البيانات (EDA): تحليل وصفي وإحصائي مع تصورات بيانية لفهم الأنماط.
تنظيف البيانات: معالجة القيم المفقودة والشاذة وتصحيح الأنواع.
هندسة الخصائص (Feature Engineering): إنشاء عمود الهدف لتصنيف سلوك الشراء وإضافة متغيرات مشتقة.
معالجة عدم التوازن (Imbalanced Data): استخدام تقنيات مثل SMOTE لإعادة توازن الفئات.
تصورات بيانية: رسم العلاقات بين الأعمدة واكتشاف الأنماط في المبيعات.
تجهيز البيانات النهائية: إنتاج ملف بيانات نظيف ومنظم وجاهز للنماذج التنبؤية.
الأدوات والتقنيات:
Python: Pandas, NumPy, Scikit-learn.
تصورات: Matplotlib, Seaborn.
بيئة العمل: Jupyter Notebook لعرض وتنفيذ الخطوات مع التوثيق.
المخرجات:
ملف بيانات نظيف جاهز للتحليل والنمذجة.
Notebook كامل يحتوي على الأكواد، الشرح، والرسوم التوضيحية.