تحليل المستوى التعليمي للطلاب في انجلترا باستخدام Python ومكتباتها مثل Pandas، Seaborn، وScikit-learn
في المشروع ده، قمت بتحليل مجموعة من البيانات الخاصة بالطلاب في انجلترا بهدف فهم العوامل اللي بتأثر على مستواهم الدراسي. استخدمت مكتبات Python القوية في تحليل البيانات، وعلى رأسها:
Pandas لتنظيف البيانات ومعالجتها
Seaborn لتصور البيانات واستخراج الأنماط
Scikit-learn لبناء نموذج توقع الدرجات
في البداية، عملت استكشاف شامل للبيانات، شملت:
معالجة القيم المفقودة والأخطاء
إزالة التكرارات
التأكد من نوع كل عمود وتحويله بالشكل المناسب
بعد كده، بدأت أستكشف العلاقات بين العوامل المختلفة ومستوى الطلاب، وكانت:
الطلاب اللي بيناموا عدد ساعات كبير نسبيًا درجاتهم أعلى، لكن النوم مش العامل الأساسي.
مستوى تعليم الوالدين له تأثير واضح على درجات الأبناء.
الطلاب اللي بيمارسوا الرياضة بيحققوا درجات أعلى من غيرهم.
اللي بيشتغلوا شغل جزئي (part-time) درجاتهم كانت أعلى بفرق ملحوظ.
عدد الإناث في العينة كان أكبر شوية من الذكور، لكن الفرق بسيط.
متوسط الدرجات كان حوالي 69، ومتوسط أعمار الطلاب حوالي 20 سنة.
معظم الطلاب بيذاكروا ما بين 3 إلى 4 ساعات في اليوم.
الوقت اللي بيقضوه على السوشيال ميديا كان من 2 لـ 3 ساعات في المتوسط.
بيشاهدوا نتفليكس حوالي ساعتين يوميًا.
بعد الاستكشاف، استخدمت خوارزمية Linear Regression لبناء نموذج يتوقع درجة الطالب بناءً على العوامل المتاحة.
النموذج قدر يحقق دقة وصلت إلى 91%، وده بيدل على كفاءة النموذج ومدى جودة البيانات المستخدمة.