تفاصيل العمل

Reuters-21578 Dataset Classification Project

مشروع Reuters-21578 يهدف إلى تصنيف المقالات الإخبارية ضمن مجموعة بيانات تضم أكثر من 10,000 وثيقة وما يقارب 30,000 كلمة فريدة. تم استخدام تقنيات معالجة اللغة الطبيعية (NLP) والتصنيف متعدد التسميات (Multi-label Classification) لتحليل وتصنيف الأخبار إلى فئات متعددة.

اللغات والتقنيات المستخدمة:

لغة البرمجة: Python

بيئة العمل: Jupyter Notebook

المكتبات: Scikit-learn، TensorFlow/Keras، Plotly، Matplotlib، Seaborn، WordCloud

تنسيق البيانات: XML

محتوى المشروع:

معالجة البيانات المسبقة (Preprocessing): تنظيف النصوص وتحويلها إلى شكل قابل للمعالجة.

التصنيف متعدد التسميات (Multi-label Classification): تدريب نموذج للتنبؤ بعدة فئات لكل مقال باستخدام خوارزميات تعلم الآلة.

مقارنة مع التصنيف أحادي التسمية (Multiclass): تقييم أداء النماذج في الحالتين.

التحليل والتصور (Visualization): إنشاء رسوم بيانية وخرائط كلمات لعرض نتائج التصنيف وتوزيع الفئات.

التعامل مع الضوضاء (Noisy Labels): دراسة تأثير جودة البيانات وتنوع مصادرها على دقة النماذج.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
المهارات