تحليل وتنظيف بيانات Superstore وتقييم تأثير المعالجة على أداء نموذج تصنيف

تفاصيل العمل

قمتُ بتنفيذ مشروع متكامل لتحليل ومعالجة بيانات Sample-Superstore.csv بهدف تحسين جودة البيانات ورفع دقة النماذج التنبؤية. شمل العمل المراحل التالية:

التحليل الاستكشافي (EDA): فحص الأعمدة وأنواع البيانات، الكشف عن القيم المفقودة والمكررة، واكتشاف القيم المتطرفة وعدم اتساق تسميات الفئات.

معالجة المشكلات:

القيم المفقودة تم التعامل معها بوسيلتين مختلفتين (التعويض الإحصائي واستخدام KNN Imputer) مع تبرير الاختيار.

القيم المتطرفة تم معالجتها بطريقتي IQR و Winsorization.

كما أُزيلت السجلات المكررة ووُحّدت التسميات النصية لضمان الاتساق.

النمذجة والتقييم: تدريب نموذجَي Logistic Regression و Random Forest قبل وبعد المعالجة، وقياس الأداء باستخدام Accuracy، Precision، Recall، F1-score ومصفوفة الارتباك.

أظهرت النتائج تحسنًا ملحوظًا في جميع المقاييس بعد التنظيف، ما يبرز أهمية معالجة البيانات وجودتها في زيادة دقة التنبؤات وتحسين موثوقية النماذج.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
تاريخ الإنجاز