قمت باستخراج الجزء من التغريدة (selected_text) الذي يعبّر عن الشعور (إيجابي، سلبي، أو محايد) باستخدام تقنيات معالجة اللغة الطبيعية (NLP).
وكانت البيانات مأخوذة من مسابقة "Tweet Sentiment Extraction" وتتضمن أعمدة النص والشعور والجزء المعبر عنه.
في المشروع بدأت بتحويل كل الأحرف إلى أحرف صغيرة ثم إزالة الروابط والإشارات والعلامات و إزالة الكلمات الشائعة غير المهمة
واستخدام Lemmatization للحصول على الجذور الصحيحة
النموذج الأولي Baseline Modeling
إذا كان الشعور محايدًا نعيد النص كامل إذا وجد الجزء المعبر في النص نعيده وإلا نأخذ أول 3 كلمات.
تم التقييم باستخدام معامل Jaccard وكانت النتائج الأولية ممتازه (Average score: ~0.989)