هذا العمل عبارة عن مشروع تصنيف بيانات باستخدام مجموعة بيانات Microsoft Malware Prediction.
نوع العمل: مشروع في مجال تحليل البيانات وتعلم الآلة (Machine Learning).
الهدف: بناء نموذج قادر على التنبؤ بما إذا كان جهاز الكمبيوتر مصابًا بالبرمجيات الخبيثة (malware) أم لا، اعتمادًا على مجموعة من الخصائص التقنية والسلوكيات.
الميزات:
استخدام تقنيات preprocessing لمعالجة البيانات الكبيرة.
تطبيق نماذج التصنيف مثل Logistic Regression وRandom Forest وXGBoost.
تقييم أداء النماذج باستخدام Accuracy, F1 Score, Precision, Recall.
طريقة التنفيذ:
استيراد البيانات وتنظيفها (Missing Values، Encoding للمتغيرات الفئوية).
تقسيم البيانات إلى Train/Test sets.
تدريب النماذج على بيانات التدريب.
تقييم النماذج على بيانات الاختبار وتحليل النتائج.
اختيار النموذج الأفضل بناءً على الأداء وتحسينه إذا لزم الأمر.