Data Preprocessing (معالجة البيانات المسبقة) هي خطوة أساسية في علم البيانات وتهدف إلى تجهيز البيانات قبل استخدامها في النمذجة والتحليل. تشمل هذه العملية عدة خطوات، منها:
Data Cleaning (تنظيف البيانات) – التعامل مع القيم المفقودة، وتصحيح القيم الشاذة، وإزالة التكرارات.
Data Transformation (تحويل البيانات) – تطبيع القيم، وتغيير شكل البيانات لتناسب النموذج.
Feature Engineering (هندسة الميزات) – إنشاء ميزات جديدة من البيانات الحالية لتحسين أداء النماذج.
Data Encoding (ترميز البيانات) – تحويل البيانات الفئوية إلى أرقام باستخدام تقنيات مثل One-Hot Encoding أو Label Encoding.
Data Splitting (تقسيم البيانات) – فصل البيانات إلى مجموعات للتدريب والاختبار والتقييم.
Scaling & Normalization (تقييس وتطبيع البيانات) – ضبط القيم ضمن نطاق معين لتحسين أداء النماذج.