Reuters-21578 Dataset Classification Project
مشروع Reuters-21578 يهدف إلى تصنيف المقالات الإخبارية ضمن مجموعة بيانات تضم أكثر من 10,000 وثيقة وما يقارب 30,000 كلمة فريدة. تم استخدام تقنيات معالجة اللغة الطبيعية (NLP) والتصنيف متعدد التسميات (Multi-label Classification) لتحليل وتصنيف الأخبار إلى فئات متعددة.
اللغات والتقنيات المستخدمة:
لغة البرمجة: Python
بيئة العمل: Jupyter Notebook
المكتبات: Scikit-learn، TensorFlow/Keras، Plotly، Matplotlib، Seaborn، WordCloud
تنسيق البيانات: XML
محتوى المشروع:
معالجة البيانات المسبقة (Preprocessing): تنظيف النصوص وتحويلها إلى شكل قابل للمعالجة.
التصنيف متعدد التسميات (Multi-label Classification): تدريب نموذج للتنبؤ بعدة فئات لكل مقال باستخدام خوارزميات تعلم الآلة.
مقارنة مع التصنيف أحادي التسمية (Multiclass): تقييم أداء النماذج في الحالتين.
التحليل والتصور (Visualization): إنشاء رسوم بيانية وخرائط كلمات لعرض نتائج التصنيف وتوزيع الفئات.
التعامل مع الضوضاء (Noisy Labels): دراسة تأثير جودة البيانات وتنوع مصادرها على دقة النماذج.