المشروع هدفه التنبؤ براتب الموظف بناءً على (عدد سنوات خبرته).
أول محطة كانت تنظيف البيانات (Data Cleaning)
شلت أي بيانات ناقصة أو غير منطقية
عالجت الـ outliers
تأكدت إن كل الأعمدة في النوع الصح
بعدها دخلت على تحليل البيانات الاستكشافي (EDA)
درست الإحصائيات الأساسية
فهمت التوزيعات والعلاقات بين المتغيرات
الخطوة الثالثة: Visualization
استخدمت الرسوم البيانية لرسم العلاقة بين الخبرة والراتب
هنا كانت اللحظة الفارقة… لاحظت إن الموديل الأول (Linear Regression) بيحقق نتائج مثالية جدًا على بيانات الاختبار → علامة واضحة على Overfitting
الحل:
لجأت لـ Ridge Regression بإضافة Regularization يقلل من تعقيد الموديل
النتيجة: أداء أكثر توازنًا ودقة أعلى على البيانات الجديدة
وأخيرًا، عملت تقييم الموديل
استخدمت MSE و R²
النتايج أثبتت إن الموديل بقى مستقر وقابل للتعميم
الدروس المستفادة:
تنظيف البيانات وفهمها بيشكل 70% من نجاح أي مشروع Machine Learning
Visualization مش بس جرافيك جميل، ده أداة قوية لكشف المشاكل مبكرًا
Regularization زي Ridge/Lasso بيقدر ينقذ الموديل من الـ Overfitting