هذا المشروع يهدف إلى تحليل ما يقرب من 32 ألف تغريدة لفهم المشاعر العامة تجاه العلامة التجارية واكتشاف المواضيع الناشئة تلقائيًا. يشمل المشروع:
تنظيف البيانات ومعالجتها: إزالة الروابط، والهاشتاجات، والـ mentions، وتحويل النصوص إلى تمثيل رقمي باستخدام TF-IDF.
التحليل الاستكشافي للبيانات (EDA): دراسة توزيع المشاعر، تحليل تكرار الكلمات والـ n-grams، تحليل الشبكات الزمنية والجغرافية للتغريدات.
نماذج التعلم الآلي (Supervised ML): تدريب وتصنيف التغريدات باستخدام Logistic Regression، Random Forest، وSVM مع التعامل مع عدم توازن الفئات.
اكتشاف المواضيع (Unsupervised ML): تطبيق LDA، KMeans، وNMF لاكتشاف الاتجاهات الجديدة في المحتوى.
التعلم العميق (Deep Learning): استخدام نماذج مثل DistilBERT، LSTM، وCNN لتحسين دقة تصنيف المشاعر.
لوحة بيانات تفاعلية (Streamlit Dashboard): عرض النتائج في الوقت الحقيقي، مراقبة اتجاهات المشاعر، وتنبيه عند زيادة المشاعر السلبية.