قمت بتنفيذ مشروع تحليل بيانات لأداء الطلاب بهدف فهم العوامل المؤثرة على درجات الامتحان Exam Score، وبناء نموذج تنبؤي لتوقع الدرجة بناءً على مجموعة من العوامل التعليمية والسلوكية.
شمل المشروع قراءة البيانات وفحصها، حيث تحتوي البيانات على 6607 صفوف و20 عمودًا، ثم تنظيف البيانات من التكرارات ومعالجة القيم المفقودة في أعمدة مثل Teacher_Quality وParental_Education_Level وDistance_from_Home باستخدام القيم الأكثر تكرارًا.
تم تنفيذ تحليل استكشافي EDA لدراسة المتغيرات المؤثرة مثل عدد ساعات المذاكرة، نسبة الحضور، الدرجات السابقة، عدد جلسات الدروس الخصوصية، النشاط البدني، توفر الإنترنت، جودة المدرس، مستوى دخل الأسرة، ومستوى تعليم الوالدين.
كما تم التعامل مع القيم الشاذة Outliers في بعض الأعمدة الرقمية مثل Hours_Studied وTutoring_Sessions، ثم تحويل المتغيرات النصية إلى قيم رقمية لتجهيز البيانات لبناء النموذج.
تم إنشاء عدة رسومات بيانية مثل Histogram للمتغيرات الرقمية، Correlation Heatmap، وتحليل العلاقة بين المتغيرات ودرجة الامتحان.
بعد تجهيز البيانات، تم بناء نموذج Linear Regression للتنبؤ بدرجة الطالب، وتم تقييم النموذج باستخدام عدة مقاييس أداء، وكانت النتائج:
R² Score: 0.7682
MSE: 3.2768
RMSE: 1.8102
MAE: 0.4753
أظهر التحليل أن أكثر العوامل تأثيرًا على درجة الامتحان تشمل ساعات المذاكرة، الحضور، الدرجات السابقة، توفر الموارد التعليمية، مشاركة الوالدين، وجود الإنترنت، وعدد جلسات الدروس الخصوصية.
هذا المشروع يوضح مهاراتي في تنظيف البيانات، التحليل الاستكشافي، معالجة القيم المفقودة والشاذة، تحويل البيانات، بناء نموذج Machine Learning، وتقييم النتائج بطريقة واضحة.