هذا المشروع يقدّم خطّ أنابيب قابل للتكرار لاكتشاف هجمات الشبكة، مع مقارنة منهجيّة بين عمليتي Label Encoding وOne-Hot Encoding:
استيراد وتنظيف البيانات: التعامل مع القيم المفقودة، ومعالجة الشواذ (IQR + Winsorization).
هندسة الميزات: تصحيح نوعيّة البيانات وإنشاء خصائص جديدة.
ترميز الفئات: تطبيق الطريقتين (Label vs One-Hot مع drop-first) واختيار الميزات عبر Mutual Information.
معالجة الاختلال: استخدام SMOTE لتوازن الفئات.
النمذجة والتقييم: تدريب خمسة مصنّفات (RF، KNN، SVM، Logistic Regression، Decision Tree)، وضبط المعاملات، وبناء نماذج تجميعية (Stacking).
النتائج الرئيسية:
Label Encoding + Random Forest حقق دقة 99.75% مع 0 خطأ سلبي.
One-Hot Encoding + XGBoost وصل إلى دقة 99.82% مع خطأ سلبي واحد.