شروع يعتمد على التحليل الاستكشافي للبيانات (EDA) وتطبيق خوارزميات تعلم الآلة (Machine Learning) للتنبؤ برواتب وظائف علوم البيانات بناءً على مجموعة من العوامل (مثل مستوى الخبرة، نوع الوظيفة، حجم الشركة، مكان العمل، وغيرها).
في هذا المشروع:
معالجة البيانات: تنظيف البيانات، إزالة القيم المكررة/المفقودة، وتحويل البيانات النصية إلى قيم عددية باستخدام Target Encoding
تحليل استكشافي (EDA): رسم مخططات بيانية (Histogram, Bar Plot, Box Plot) لفهم توزيع الرواتب والعوامل المؤثرة.
نمذجة البيانات: تجربة عدة نماذج للتنبؤ بالرواتب مثل:
Linear Regression
Random Forest
XGBoost
تقييم الأداء: استخدام مقاييس مثل MSE, Accuracy, Confusion Matrix, Classification Report لمقارنة النماذج واختيار الأفضل.
الهدف النهائي: بناء نظام ذكي يتنبأ بالراتب المتوقع لوظائف الداتا ساينس بدقة عالية.