1. تنظيف البيانات (Data Cleaning)
حذف الأعمدة غير المهمة مثل PatientID و DoctorInCharge لأنها مش مرتبطة بالتشخيص.
التعامل مع القيم المفقودة عن طريق تعويضها بالقيم المتوسطة.
2. تحليل البيانات الاستكشافية (Exploratory Data Analysis)
رسم توزيعات البيانات لمعرفة العلاقة بين العوامل الصحية والإصابة.
عرض الرسوم البيانية زي:
تأثير العمر على التشخيص.
العلاقة بين التدخين والإصابة.
مستوى النشاط البدني والإصابة.
3. تطبيع البيانات العددية باستخدام StandardScaler لتحسين أداء النماذج.
4. بناء النماذج (Model Building)
تم تدريب أكتر من نموذج:
Logistic Regression
Random Forest (أحسن نتيجة)
Support Vector Machine (SVM)