توقع درجات الطلاب
هذا المشروع يقوم بتحليل وتوقع درجات الامتحانات للطلاب بالاعتماد على العوامل الديموغرافية، الأكاديمية، والبيئية باستخدام مجموعة بيانات Student Performance Factors من Kaggle.
الملف التطبيقي (Notebook) يمر بمراحل تنظيف البيانات، استكشافها، تصورها، وتطبيق نماذج التعلم الآلي لاكتشاف العوامل الأكثر تأثيرًا على أداء الطلاب في الامتحانات.
مجموعة البيانات
المصدر: Kaggle – Student Performance Factors
تتضمن الخصائص:
عدد ساعات الدراسة
عدد ساعات النوم
مستوى تعليم الوالدين
جودة المعلم
بُعد المنزل عن المدرسة
الأنشطة اللاصفية
الوصول إلى الإنترنت
المتغير الهدف: درجة الامتحان (Exam_Score)
خطوات المشروع
معالجة البيانات:
التعامل مع القيم المفقودة (الإكمال باستخدام الأكثر تكرارًا للقيم الفئوية).
إزالة القيم المكررة (لم يتم العثور على أي في هذه البيانات).
كشف وإزالة القيم الشاذة باستخدام IQR.
ترميز المتغيرات الفئوية.
التحليل الاستكشافي للبيانات (EDA):
رسوم توزيع للمتغيرات العددية.
رسوم عدّ للمتغيرات الفئوية.
مخططات تشتت بين الخصائص ودرجة الامتحان.
تحليل الارتباط.
Machine Learning:
تدريب نماذج الانحدار (الخطي والمتعدد الحدود).
التقييم باستخدام مقاييس مثل معامل التحديد R².
مقارنة أداء النماذج.
النتائج:
إبراز أهم الخصائص المؤثرة في أداء الطلاب.
مناقشة التأثيرات العملية على الطلاب، الأهالي، والمعلمين.
النتائج والاستنتاجات
نماذج الانحدار الخطي الأساسية حققت درجات R² جيدة، وكانت نتائج التدريب والاختبار متقاربة (ما يدل على قلة فرط التخصيص(low overfitting)).
التحقق المتقاطع (cross validation) باستخدام 10 أجزاء أكد ثبات النموذج، حيث كان متوسط معامل R² متناسقًا عبر جميع الأجزاء.
إضافة خصائص متعددة الحدود زادت من تعقيد النموذج لكنها لم تحسن الأداء بشكل ملحوظ، ما يشير إلى أن العلاقة بين الخصائص ودرجة الامتحان غالبًا خطية.
الخلاصة: عوامل مثل ساعات الدراسة، النوم، وجودة المعلم تفسر جزءًا كبيرًا من اختلاف درجات الامتحانات، لكن هناك عوامل خارجية/غير مقاسة تؤثر أيضًا في أداء الطلاب.