? جمع البيانات لمشروع اكتشاف خطاب الكراهية (Raqib AI)
? القسم الأول: اللهجة الجزائرية
التعليقات:
البيانات الأساسية: ملف ALGD_Toxity.xlsx يحتوي على (14 ألف تعليق)
تم الدمج: مع مجموعتين إضافيتين
المجموعة اليدوية: 1000 تعليق تم جمعها وتصنيفها يدويًا
النتيجة النهائية: أكثر من 31 ألف سطر مصنف
المصدر: تصنيف يدوي داخلي
? القسم الثاني: اللغة العربية الفصحى
التعليقات:
تم جمع البيانات باستخدام واجهات برمجة التطبيقات (APIs):
تويتر → Tweepy
يوتيوب → Vertex
إنستغرام → Apify
النتيجة النهائية: أكثر من 6 آلاف تعليق مستخرج
️ تعليق إضافي عام:
تم دمج تعليقات باللهجة الجزائرية والعربية الفصحى، إلى جانب مجموعة بيانات يدوية مصنفة بدقة، لإنشاء قاعدة بيانات متنوعة ومُعززة لتدريب نموذج Raqib AI لاكتشاف خطاب الكراهية.
? تعليق للمخطط البياني:
استخدمنا ثلاث مصادر رئيسية للبيانات:
مجموعات عامة باللهجة الجزائرية
استخراج مباشر من وسائل التواصل عبر APIs
تصنيف يدوي دقيق لـ 1000 تعليق
وتم دمجها لتكوين أكثر من 37 ألف تعليق متنوع لغويًا.