تنظيف البيانات (Data Cleaning):
التعامل مع القيم المفقودة (Missing Values) → تعويضها أو حذفها.
إزالة القيم الشاذة (Outliers).
تصحيح البيانات الخاطئة أو المكررة.
تحويل البيانات (Data Transformation):
توحيد القيم (Normalization / Standardization): علشان كل الخصائص تبقى في نفس المقياس.
ترميز البيانات النصية (Encoding): تحويل النصوص لأرقام (مثل One-Hot Encoding أو Label Encoding).
تقليل الأبعاد (Dimensionality Reduction):
تقليل عدد الخصائص (Features) مع الحفاظ على أهم المعلومات (زي PCA).
تقسيم البيانات (Data Splitting):
تقسيم البيانات إلى تدريب (Train) و اختبار (Test) وأحيانًا تحقق (Validation).
استخراج الخصائص (Feature Extraction / Feature Engineering):
إنشاء خصائص جديدة تساعد النموذج يتعلم أفضل.