Application de Prétraitement et Modélisation des Données d'Assurance

تفاصيل العمل

#### 1. استكشاف البيانات

- تحميل بيانات التدريب والاختبار من ملفات CSV.

- التحليل الاستكشافي للبيانات لفهم هيكل البيانات:

- عرض عدد الصفوف والأعمدة.

- أنواع البيانات لكل عمود.

- تحديد القيم المفقودة في كل عمود.

- فصل الأعمدة إلى عددية وتصنيفية.

#### 2. معالجة القيم المفقودة

- حذف الصفوف التي تحتوي على قيم مفقودة في العمود 'الحديقة'.

- ملء القيم المفقودة في 'حجم المبنى' بالوسيط.

- ملء القيم المفقودة في 'رمز الموقع' بالوضع (القيمة الأكثر شيوعًا).

#### 3. معالجة القيم الطردية

- تحديد القيم الطردية في الأعمدة العددية.

- استبدال القيم الطردية بالحدود المحددة (طريقة IQR).

#### 4. توحيد البيانات

- استخدام RobustScaler لتقليل تأثير القيم الطردية على 'حجم المبنى'.

- ترميز المتغيرات التصنيفية باستخدام LabelEncoder.

#### 5. تقسيم البيانات

- استخدام KBinsDiscretizer لتقسيم 'سنة المراقبة' و 'حجم المبنى' إلى فترات متساوية.

#### 6. نمذجة المطالبات التأمينية

- تدريب عدة نماذج لتعلم الآلة:

- الانحدار اللوجستي

- شجرة القرار

- الغابة العشوائية

- آلة الدعم الناقصة (SVM)

- شبكة الانتشار العصبي MLP

- تقييم النماذج باستخدام مقاييس مثل:

- الدقة

- الدقة

- الاستدعاء

- الف1 سكور

#### 7. منحنيات ROC للتقييم

- عرض منحنيات ROC لكل نموذج مع مساحة تحت المنحنى (AUC).

- مقارنة بصرية لأداء النماذج.

يوفر هذا التطبيق إطارًا شاملاً لمعالجة بيانات التأمين، وبناء وتقييم نماذج مختلفة لتنبؤ المطالبات التأمينية. يسمح بتحليل عميق للبيانات ويوفر مقاييس الأداء لاختيار أفضل نموذج.