1. فحص البيانات
• تحديد القيم المفقودة وأنواع البيانات
• التمييز بين المتغيرات الفئوية والمتغيرات العددية
• تحليل توزيعات المتغيرات
2. التصورات والرؤى
• المتغيرات العددية: الرسوم البيانية التكرارية، الصندوقية، ورسوم الكمان
• المتغيرات الفئوية: الرسوم البيانية للعد، والرسوم البيانية الشريطية المكدسة
• تحليل العلاقة بين المتغيرات والمستهدف لتحديد قوة التنبؤ
3. المعالجة المسبقة وقرارات الترميز
• التعامل مع القيم المفقودة مع تبرير طبي
• تصنيف المتغيرات إلى ثنائية، اسمية، ترتيبية، ومستمرّة
• تطبيق ترميز التسمية للمتغيرات الترتيبية
• تطبيق الترميز الأحادي للمتغيرات الاسمية
4. منع تسرب البيانات
• الترتيب الصحيح: تقسيم البيانات → التوحيد → التدريب
• ملاءمة الـ StandardScaler على بيانات التدريب فقط
• تحويل كل من مجموعات التدريب والاختبار