مشروع تصنيف الرسائل النصية إلى مزعجة (Spam) أو عادية (Ham) يهدف إلى بناء نموذج تعلم آلي يساعد على فلترة الرسائل غير المرغوب فيها، وهو ما يُستخدم عمليًا في أنظمة البريد الإلكتروني وتطبيقات المراسلة لحماية المستخدمين من الإعلانات المزعجة أو الرسائل الاحتيالية.
آلية العمل:
معالجة البيانات: تنظيف النصوص، تحويل جميع الحروف لصيغة موحّدة، إزالة الرموز والكلمات الشائعة (Stopwords).
تحويل النصوص إلى أرقام: باستخدام تقنيات مثل Bag of Words و TF-IDF.
تدريب نماذج تعلم آلي مثل:
Naive Bayes (الأكثر استخدامًا في Spam Filtering).,Logistic Regression.,Support Vector Machines (SVM),RandomForest.
تقييم الأداء باستخدام مقاييس مثل: Accuracy، Precision، Recall، F1-Score.
نموذج ذكي قادر على التنبؤ ما إذا كانت الرسالة Spam أو Ham.
تقرير بالنتائج يوضح أداء النماذج المختلفة.