يهدف هذا المشروع إلى تحليل بيانات أداء الطلاب ودراسة العوامل المؤثرة على مؤشر الأداء الأكاديمي (Performance Index). يبدأ العمل بتحميل مجموعة البيانات واستكشافها من خلال عرض المعلومات الأساسية والتأكد من نوع كل عمود وعدد القيم المفقودة.
يتضمن المشروع معالجة شاملة للبيانات، تشمل:
تنظيف الأعمدة النصية مثل عمود Extracurricular Activities وتوحيد القيم (Yes / No).
التعامل مع القيم المفقودة في البيانات النصية باستخدام SimpleImputer، وفي البيانات الرقمية باستخدام KNNImputer لضمان ملء القيم بطريقة تعتمد على أقرب الجيران.
تحويل القيم النصية إلى قيم رقمية باستخدام LabelEncoder لتسهيل استخدامها في النماذج التحليلية.
إجراء تحليل بصري باستخدام Seaborn و Matplotlib من خلال رسومات التوزيع (Histogram + KDE) لفهم شكل توزيع البيانات والكشف عن الانحراف (Skewness).
إعداد البيانات للنمذجة عبر فصل البيانات إلى Features وTarget، ثم تقسيمها إلى بيانات تدريب واختبار باستخدام train_test_split.
يُعد هذا التحليل خطوة أساسية لفهم البيانات بعمق ومعالجتها بشكل صحيح قبل تطبيق أي نموذج تعليمي، مما يساعد على تحسين دقة التنبؤ وفهم العوامل التي تؤثر على أداء الطلاب