هذا المشروع تم تنفيذه ضمن مبادرة رواد مصر الرقمية (DEPI)، ويهدف إلى بناء ومقارنة عدة نماذج تعلم آلة لتصنيف البيانات، مع دراسة تأثير تقليل الأبعاد باستخدام تقنية PCA على أداء النماذج.
? خطوات العمل
تنظيف البيانات ومعالجتها
عمل Feature Scaling
تقسيم البيانات باستخدام Stratified Sampling
تدريب عدة نماذج تصنيف
تقييم أداء النماذج ومقارنتها
تطبيق PCA لتقليل الأبعاد
اختبار نماذج Ensemble بعد تقليل الأبعاد
? أداء النماذج قبل PCA
Naive Bayes: 84.2%
KNN (K=3): 88.4%
KNN (K=5): 89.0%
KNN (K=7): 89.7%
SVM (RBF): 90.18%
? حقق نموذج SVM أفضل أداء قبل تطبيق PCA.
? أداء النماذج بعد PCA
Random Forest: 89.47%
Bagging: 89.23%
Voting: 90.12%
AdaBoost: 90.18%
? حققت نماذج AdaBoost و Voting أفضل أداء بعد تقليل الأبعاد.
? نتائج PCA
تم تقليل عدد الأبعاد مع الحفاظ على أغلب المعلومات في البيانات:
المكون الأول: 48.9%
المكون الثاني: 26.0%
المكون الثالث: 7.8%
وهذا يوضح أن معظم المعلومات يمكن تمثيلها بعدد أقل من الخصائص.
? أهم الاستنتاجات
تقنية PCA تساعد في تقليل الأبعاد مع الحفاظ على المعلومات المهمة.
نماذج Ensemble تحافظ على أداء قوي حتى بعد تقليل البيانات.
مقارنة النماذج خطوة أساسية لاختيار النموذج الأفضل.
? الأدوات المستخدمة
Python – Pandas – NumPy – Scikit-learn – Matplotlib