نوع العمل:
مشروع متكامل في علم البيانات وتعلم الآلة (End-to-End ML Pipeline)، يهدف إلى تحليل بيانات ضخمة لحوادث الطرق في المملكة المتحدة لعام 2018 والتنبؤ بدرجة خطورة الحادث (Slight, Serious, Fatal) بناءً على الظروف المحيطة.
مميزات العمل:
تحليل بيانات ضخمة (Big Data): التعامل مع أكثر من 270 ألف سجل ودمج 3 مصادر بيانات مختلفة (حوادث، مركبات، مصابين).
دقة التنبؤ: استخدام خوارزميات متقدمة مثل XGBoost و CatBoost للوصول لأفضل أداء في تصنيف الحوادث.
هندسة ميزات ذكية (Feature Engineering): تطبيق تقنيات الـ Target Encoding المتقدمة للتعامل مع البيانات الجغرافية المعقدة (LSOA) مع حماية الموديل من تسريب البيانات (Data Leakage).
واجهة تفاعلية: بناء تطبيق ويب باستخدام Gradio يسمح للمستخدمين بإدخال بيانات الحادث والحصول على توقع فوري.
طريقة التنفيذ:
المعالجة المسبقة (Preprocessing): تنظيف البيانات من القيم المفقودة باستخدام استراتيجيات الإحصاء الوصفي (Median/Mode) ومعالجة القيم الشاذة.
التحليل الاستكشافي (EDA): إنشاء خرائط حرارية ورسوم بيانية لربط العوامل الجوية، الإضاءة، ونوع الطريق بخطورة الحادث.
بناء النماذج: مقارنة أكثر من 10 موديلات تعلم آلة واختيار الأفضل بناءً على مقاييس الـ F1-Score والـ AUC/ROC Curve.
تحسين الأداء (Fine-tuning): استخدام الـ GridSearchCV للوصول لأفضل "Parameters" تضمن توازن الموديل بين الدقة والقدرة على تمييز الحوادث النادرة (Fatal).
النشر (Deployment): حفظ الموديل النهائي وتحويله إلى أداة برمجية تفاعلية قابلة للاستخدام الفعلي.