قمت بتطوير ونمذجة نظام تنبؤي متكامل لتحليل مخاطر دوران العمالة (Employee Turnover)، بهدف مساعدة إدارات الموارد البشرية على اتخاذ قرارات استباقية لتعزيز استبقاء الكفاءات.
تحليل وتجهيز البيانات (EDA & Data Quality)استكشاف العلاقات الاستراتيجية: قمت بتحليل مصفوفة الارتباط (Correlation Heatmap) لتحديد الميزات الأكثر تأثيراً على قرار المغادرة، حيث تبيّن وجود ارتباط وثيق بين "المغادرة" وكل من (المستوى الوظيفي، الحالة الاجتماعية، والعمل عن بُعد).
إدارة القيم المتطرفة (Outlier Handling): اعتمدت أسلوب المدى الربيعي (IQR Method) لتنقية البيانات في ميزات حساسة مثل "الدخل الشهري" و"سنوات العمل في الشركة"، لضمان عدم انحياز النموذج للقيم الشاذة.
خط معالجة البيانات (Data Preprocessing Pipeline)هندسة وترميز الميزات (Encoding): قمت بتطبيق (Label Encoding) لتحويل المتغيرات الفئوية (مثل جنس الموظف والعمل الإضافي) إلى قيم رقمية (1/0) ليفهمها النموذج البرمجي.
المعايرة المتينة (Robust Scaling): استخدمت تقنية RobustScaler لمعالجة الميزات الرقمية، وهي التقنية الأمثل للتعامل مع البيانات التي تحتوي على قيم متطرفة متبقية، كونها تعتمد على الوسيط والمدى الربيعي.
تقسيم البيانات: اعتمدت تقسيم البيانات بنسبة 80% للتدريب و20% للاختبار لضمان تقييم عادل وشامل لأداء النماذج.
بناء واستراتيجية النمذجة (Modeling Strategy)تعدد الخوارزميات: لم أكتفِ بنموذج واحد، بل قمت بتجربة ومقارنة عدة خوارزميات تشمل:Logistic Regression: كنموذج احتمالي مرجعي.
Random Forest & XGBoost: للاستفادة من تقنيات التعلم التجميعي (Ensemble Learning).Deep Learning (ANN): بناء شبكة عصبية اصطناعية تتكون من طبقات كثيفة (Dense Layers) مع استخدام وظائف تنشيط (ReLU) و (Sigmoid) في المخرج للتنبؤ باحتمالية المغادرة.
تحسين الفائق (Hyperparameter Tuning): استخدمت RandomizedSearchCV مع التحقق المتقاطع (CV=5) لتحسين أداء نموذج SVM مع التركيز بشكل خاص على معيار F1-Score.4.
التقييم والنتائج النهائيةتحديد النموذج الأمثل: تفوق نموذج Support Vector Machines (SVM) كأفضل أداء بفضل تقنية الـ (Kernel Trick) التي سمحت بفصل البيانات المتداخلة في أبعاد أعلى، محققاً دقة (ROC-AUC) بلغت 76.28%.
التركيز على المقاييس الواقعية: تم التركيز على Recall و F1-Score لضمان قدرة النموذج على رصد حالات المغادرة الفعلية (Risk Detection) بدقة، معتبراً أن دقة تتراوح بين 74% و 76% هي نتيجة واقعية جداً لبيانات السلوك البشري المعقدة.