مشروع يهدف إلى تنظيف ومعالجة البيانات الخام باستخدام لغة Python، وتجهيزها للاستخدام في عمليات التحليل أو النمذجة. الكود يقوم بتنفيذ خطوات متكاملة تشمل:
تحميل البيانات من ملف CSV وفحصها مبدئيًا (أنواع الأعمدة، القيم المفقودة، التكرارات).
معالجة القيم المفقودة باستخدام استراتيجيات مختلفة (المتوسط، الوسيط، القيم الأكثر تكرارًا).
إزالة التكرارات والحفاظ على البيانات الفريدة.
تحويل أنواع الأعمدة (مثل تحويل النصوص إلى تواريخ أو تحويل الأعداد إلى النوع المناسب).
اكتشاف ومعالجة القيم الشاذة (Outliers) باستخدام طريقة IQR والـ capping.
تشفير المتغيرات الفئوية (Categorical Encoding) باستخدام One-Hot Encoding.
تقييس وتطبيع القيم العددية (Standard Scaling أو Min-Max Scaling).
حفظ البيانات النظيفة في ملف CSV جديد جاهز للتحليل أو الاستخدام في نماذج تعلم الآلة.