في هذا المشروع قمت بالعمل على جمع بيانات (تغريدات تويتر) حول سوق الأسهم السعودي في الفترة الممتدة من 2021 إلى 2025 باستخدام twitter-api.io ثم القيام بتنظيفها ومعالجتها لعمل Sentiment Analysis عليها واستخلاص رؤى قيّمة حول توجهات المستثمرين ومشاعرهم تجاه السوق.
النطاق التقني:
-حجم البيانات: أكثر من 40,000 تغريدة باللغة العربية تم جمعها وتحليلها
-المعالجة اللغوية: تطوير معجم شامل للمشاعر باللغة العربية يحتوي على أكثر من 350 كلمة مصنفة (إيجابية، سلبية، محايدة) مع مراعاة خصوصية مصطلحات سوق الأسهم السعودي
-خوارزميات التصنيف: تطبيق 5 خوارزميات تعلم آلة مختلفة (SVM, Random Forest, SGD, Logistic Regression, Decision Tree)
-استخلاص السمات: استخدام تقنيات TF-IDF وCount Vectorizer مع دمج السمات المعجمية
المخرجات الرئيسية:
-نموذج تصنيف بدقة تصل إلى 79% لتحديد المشاعر (إيجابية/سلبية/محايدة) للتغريدات العربية
-حساب مؤشر المشاعر اليومي باستخدام معادلة خاصة
-تحليل المشاعر حسب القطاعات (البنوك، الإسمنت، العقارات، الاتصالات، التأمين، التجزئة، الزراعة)
-تحديد الكلمات والمصطلحات الأكثر تأثيراً على توجهات السوق
التقنيات المستخدمة:
-اللغات: Python
-المكتبات: Pandas, NumPy, Scikit-learn, NLTK, Joblib
-قواعد البيانات: Excel/CSV للتخزين المحلي
-واجهات البرمجة: Twitter API للحصول على البيانات الفورية
-المعالجة: تنظيف النصوص العربية، إزالة التشكيل، توحيد الأحرف، حذف الكلمات الشائعة
التأثير والفوائد:
يساعد هذا النظام المستثمرين والمحللين في:
-فهم التوجه العام للسوق من خلال تحليل آراء المتداولين
-اتخاذ قرارات استثمارية مدروسة بناءً على مؤشرات المشاعر
-تحديد القطاعات الأكثر إيجابية أو سلبية في فترات زمنية محددة
-رصد التغيرات المفاجئة في مشاعر السوق والتنبؤ بالاتجاهات المستقبلية