قمت بتنفيذ مشروع تحليل وتنبؤ بالإفلاس للشركات في تايوان باستخدام تقنيات تعلم الآلة (Machine Learning).
المشروع يعتمد على بيانات حقيقية تحتوي على أكثر من 6000 شركة و95 مؤشر مالي، وتم تطوير نموذج قادر على التنبؤ بشكل دقيق باحتمالية إفلاس الشركات.
أهم ميزات المشروع:
تحليل شامل للبيانات وتجهيزها للنموذج.
معالجة مشكلة عدم توازن الفئات باستخدام RandomOverSampler.
بناء نموذج Random Forest وتحسينه باستخدام GridSearchCV وCross Validation.
الحصول على دقة عالية وصلت إلى 97.7% على بيانات الاختبار.
استخراج الميزات الأكثر تأثيرًا على قرار النموذج.
تنفيذ ملف مستقل للتنبؤ على بيانات جديدة (Prediction Script).
حفظ النموذج بصيغة .pkl وإمكانية استخدامه في أي نظام آخر.
طريقة التنفيذ:
قراءة البيانات المضغوطة JSON.GZ وتحويلها إلى DataFrame.
تحليل البيانات وتحديد عدد الشركات والميزات.
تقسيم البيانات إلى Train/Test.
إعادة توازن البيانات oversampling.
تدريب وتحسين النموذج باستخدام GridSearchCV.
تقييم النموذج ورسم Confusion Matrix & Feature Importance.
حفظ النموذج وبناء دالة التنبؤ.
تطبيق النموذج على بيانات اختبار خارجية.
المشروع مكتوب بالكامل بلغة Python ويعتمد على مكتبات احترافية مثل Pandas، Scikit-Learn، Matplotlib، وimblearn.