استخدام خوارزميات تعلم الآلة لتصنيف المعاملات البنكية إلى "احتيالية" أو "طبيعية"، بناءً على بيانات حقيقية من معاملات بطاقات الائتمان.
البيانات المستخدمة:
المصدر: Credit Card Fraud Dataset – Kaggle
عدد الصفوف: 284,807 صف
عدد الميزات: 30 ميزة (بعد تطبيق PCA)
نسبة الاحتيال: فقط 0.17% من البيانات احتيالية → مشكلة عدم توازن واضح
استكشاف البيانات (EDA):
تحليل التوزيع
اكتشاف القيم المفقودة
رسم بياني لتوزيع المعاملات الاحتيالية
معالجة عدم التوازن:
استخدام تقنيات مثل SMOTE أو Undersampling
اختيار النموذج:
تجربة خوارزميات مثل:
Logistic Regression
Random Forest
XGBoost
Neural Networks
تقييم الأداء:
استخدام مقاييس مثل:
Precision
Recall
F1-score
ROC-AUC