بالعربي:
مشروع يهدف إلى بناء مصنف ثنائي لتحديد ما إذا كانت مراجعة المنتج إيجابية أو سلبية.
تم استخدام مجموعة بيانات IMDb Movie Reviews من Kaggle، مع خطوات معالجة نصوص تشمل:
تنظيف النصوص (إزالة علامات الترقيم، الوسوم، والكلمات الشائعة).
تحويل النصوص إلى صيغة عددية باستخدام TF-IDF.
تدريب نموذجين للتصنيف: Logistic Regression و Multinomial Naive Bayes.
تقييم الأداء باستخدام Accuracy, Precision, Recall, و F1-score.
الأدوات واللغات: Python, Scikit-learn, Pandas, NLTK
In English:
This project focuses on building a binary sentiment classifier to determine whether a product review expresses a positive or negative sentiment.
Dataset: IMDb Movie Reviews from Kaggle
Preprocessing: Text cleaning, normalization, stopword removal, tokenization, TF-IDF vectorization
Models: Logistic Regression & Multinomial Naive Bayes
Evaluation Metrics: Accuracy, Precision, Recall, F1-score
Tools & Libraries: Python, Scikit-learn, Pandas, NLTK