في هذا العمل قمت بتنظيف ومعالجة بيانات مبيعات مكونة من 240 صفًا و9 أعمدة، باستخدام لغة Python ومكتبة Pandas. الهدف من العملية كان تحويل ملف بيانات خام مليء بالتفاصيل غير المنظمة إلى ملف منظم ونظيف جاهز للاستخدام في التحليل أو بناء نماذج تعلم الآلة (Machine Learning)
معالجة القيم المفقودة (Missing Values):
تم استخدام طرق مثل forward fill و backward fill لضمان عدم وجود فراغات أو قيم ناقصة.
النتيجة: جميع الأعمدة أصبحت مكتملة 100% بدون أي بيانات ناقصة
التعامل مع القيم الشاذة (Outliers):
طبقت قاعدة IQR (Interquartile Range) لاكتشاف القيم الغريبة وغير المنطقية.
تم تعديل هذه القيم للحفاظ على دقة البيانات.
تحويل الأعمدة النصية إلى أكواد عددية (Encoding):
عمود Product Name تم تحويله باستخدام Label Encoding → بحيث أصبح كل منتج له رقم مميز.
الأعمدة الفئوية مثل Region و Payment Method تم تحويلها باستخدام One-Hot Encoding → فتم إنشاء أعمدة إضافية منطقية (True/False) لكل فئة
تنسيق التاريخ (Date Feature Engineering):
فصلت عمود التاريخ Date إلى ثلاثة أعمدة مستقلة: day, month, year.
هذا ساعد في جعل البيانات أكثر مرونة للاستخدام في التحليل الزمني (Time Series Analysis)
(Data Types Optimization):
تحويل بعض الأعمدة إلى أنواع بيانات أصغر حجمًا مثل int16 و bool لتقليل استهلاك الذاكرة.
النتيجة: حجم الملف انخفض وأصبح أكثر كفاءة