المشروع يهدف إلى بناء نموذج ذكاء اصطناعي لتصنيف التعليقات النصية ضمن عدة أنواع من السلوكيات السامة، وهي:
toxic – severe_toxic – obscene – threat – insult – identity_hate.
يعتمد التصنيف على تقنية التصنيف الثنائي المتعدد (Multi-label Binary Classification)، حيث يمكن للتعليق الواحد أن ينتمي لأكثر من فئة في نفس الوقت أو لا ينتمي لأي منها.
تم استخدام نماذج تعلم عميق مثل LSTM وBiLSTM، مع الاستفادة من تمثيلات الكلمات المدربة مسبقًا ( GloVe embedding) لفهم المعاني والسياق بشكل أفضل. كما تم تجريب نموذج Stacked BiLSTM للحصول على أداء أعلى.
تقييم النماذج تم باستخدام مقياس ROC-AUC لكل فئة، وحقق النموذج نتائج قوية تجعله مناسبًا لتطبيقات عملية مثل تصفية المحتوى وتعزيز الأمان في المنصات التفاعلية.