تجهيز البيانات عشان تبقى صالحة للتحليل.
البيانات اللي بنجمعها (من surveys, sensors, systems...) غالبًا بتكون فيها مشاكل زي:
قيم ناقصة (Missing values).
أخطاء إدخال (زي أعمار مكتوبة 999).
قيم مكررة (Duplicate rows).
قيم غير منطقية (مثلاً بلد = "Earth" أو عمر = -5).
اختلاف في التنسيق (مثلاً تاريخ مكتوب كـ نص أو دولة مكتوبة بطرق مختلفة "USA", "U.S.A", "United States").