المشروع يهدف لتحليل أداء الطلاب وفهم العوامل المؤثرة على نتائجهم باستخدام تحليل البيانات والتعلم الآلي.
1. **معالجة البيانات**
* تنظيف القيم المفقودة وغير المناسبة.
* تحويل البيانات الفئوية لأرقام (Label/One-Hot Encoding).
* تقسيم البيانات لتدريب واختبار النموذج.
2. **التحليل الاستكشافي (EDA)**
* دراسة توزيعات درجات الرياضيات، القراءة، والكتابة.
* تحليل تأثير الجنس، الخلفية التعليمية، والأنشطة على الأداء.
* استخدام المخططات الشريطية والمبعثرة لفحص العلاقات بين المتغيرات.
3. **التنبؤ بالأداء (ML Model)**
* بناء نموذج لتوقع درجات الطلاب باستخدام الانحدار الخطي.
4. **تحليل المتغيرات المؤثرة**
* تحديد أهم العوامل باستخدام Feature Importance.
* دراسة العلاقات المعقدة بين المتغيرات.
5. **تصور البيانات**
* مخططات شريطية لتوزيع الدرجات.
* مخططات مبعثرة للعلاقات بين الأنشطة والدرجات.
* مخططات دائرية لتوزيع الطلاب حسب الجنس أو فئات الأداء.