قمتُ بتنفيذ مشروع متكامل لتحليل ومعالجة بيانات Sample-Superstore.csv بهدف تحسين جودة البيانات ورفع دقة النماذج التنبؤية. شمل العمل المراحل التالية:
التحليل الاستكشافي (EDA): فحص الأعمدة وأنواع البيانات، الكشف عن القيم المفقودة والمكررة، واكتشاف القيم المتطرفة وعدم اتساق تسميات الفئات.
معالجة المشكلات:
القيم المفقودة تم التعامل معها بوسيلتين مختلفتين (التعويض الإحصائي واستخدام KNN Imputer) مع تبرير الاختيار.
القيم المتطرفة تم معالجتها بطريقتي IQR و Winsorization.
كما أُزيلت السجلات المكررة ووُحّدت التسميات النصية لضمان الاتساق.
النمذجة والتقييم: تدريب نموذجَي Logistic Regression و Random Forest قبل وبعد المعالجة، وقياس الأداء باستخدام Accuracy، Precision، Recall، F1-score ومصفوفة الارتباك.
أظهرت النتائج تحسنًا ملحوظًا في جميع المقاييس بعد التنظيف، ما يبرز أهمية معالجة البيانات وجودتها في زيادة دقة التنبؤات وتحسين موثوقية النماذج.