قمت بتنفيذ مشروع متكامل في معالجة اللغة الطبيعية (NLP) يهدف إلى بناء نموذج قوي لتصنيف المشاعر في النصوص القصيرة (إيجابي – سلبي – محايد). اعتمدت في المشروع على بيانات حقيقية تحتوي على نصوص مع بيانات وصفية إضافية مثل العمر، الدولة، الكثافة السكانية، والزمن.
مراحل العمل تضمنت:
تحليل البيانات واستكشافها: دراسة توزيع المشاعر، الكلمات الأكثر شيوعًا، والعلاقات بين السمات (مثل العمر والدولة والمشاعر).
المعالجة المسبقة للنصوص: تنظيف البيانات (إزالة الروابط، الرموز، علامات الترقيم، الكلمات الشائعة)، ثم استخدام Tokenization وLemmatization.
تشفير البيانات الوصفية ومعالجة طول النصوص باستخدام Sequence Padding.
بناء نموذج عميق يجمع بين:
طبقة Embedding باستخدام GloVe.
طبقة Convolutional Layer لاستخراج الأنماط المهمة.
طبقة Bi-LSTM لالتقاط السياق في الاتجاهين.
آلية Attention Mechanism للتركيز على الكلمات الأكثر تأثيرًا.
طبقات Dense & Dropout للتعميم وتقليل فرط التخصيص.
تقييم النموذج باستخدام F1-Score وتحليل النتائج عبر مصفوفة الارتباك (Confusion Matrix) لمعالجة مشكلة التوازن بين الفئات.
النتيجة: نموذج قادر على التمييز بين النصوص الإيجابية والسلبية والمحايدة مع استخدام تقنيات التنظيم Regularization، إيقاف مبكر Early Stopping، وأوزان الفئات Class Weights لتحسين الأداء ومعالجة اختلال التوازن.