في هذا المشروع قمت بتحليل بيانات رواتب وظائف علوم البيانات (Data Science Job Salaries) بهدف استخراج insights مهمة حول العوامل المؤثرة على الرواتب مثل مستوى الخبرة، نوع الوظيفة، العمل عن بُعد، وحجم الشركة.
تضمن المشروع:
• تنظيف البيانات ومعالجتها
• حذف البيانات المكررة (Duplicates)
• معالجة القيم الشاذة (Outliers) باستخدام IQR
• إجراء التحليل الاستكشافي للبيانات (EDA) وعمل Visualization
• تطبيق Target Encoding على الأعمدة الفئوية
• بناء وتجربة عدة نماذج Machine Learning للتنبؤ بالرواتب
أفضل نموذج حققته كان:
RandomForestRegressor
بدقة R² = 0.9899
الأدوات المستخدمة:
Python, Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn