جمع البيانات:
تم استخدام مصادر متعددة لجمع البيانات
بعد تصفية البيانات وإزالة التكرارات ، تم الحصول على ما مجموعه 694462 صفًا من عناوين URL الحميدة والضارة.
ميزة استخراج:
تم استخراج 29 ميزة من عناوين URL ، بما في ذلك:
* الانتروبيا لعناوين المواقع
* طول اسم المضيف
* طول المسار
* عدد @
* عدد ؟
نماذج التعلم الآلي والتعلم العميق:
تم اختبار العديد من النماذج ، وتم تحقيق أفضل دقة باستخدام مصنف التصويت (الثابت) الذي يجمع بين Random Forest و Decision Tree و XGB Classifier. كانت دقة النموذج أعلى من 97٪.
نشر النموذج:
تم استخدام مكتبات Flask و Streamlit لنشر النموذج.