مشروع يهدف إلى تحليل بيانات السيارات المستوردة والتنبؤ بسعر السيارة اعتمادًا على تقنيات علم البيانات ومعالجة البيانات، حيث تم استخدام مجموعة بيانات تحتوي على خصائص مختلفة للسيارات مثل حجم المحرك والمواصفات الفنية والسمات الوصفية. بدأت عملية التنفيذ بتحميل البيانات وفحصها للتعرف على القيم المفقودة، ثم تنظيف البيانات من خلال حذف القيم المفقودة أو تعويضها باستخدام تقنيات الاستكمال الإحصائي، حيث تم تعويض القيم العددية بالمتوسط والقيم الفئوية بالقيمة الأكثر تكرارًا. بعد ذلك تم إزالة التكرارات والتعامل مع القيم الشاذة باستخدام أسلوب المدى الربيعي (IQR) لضمان جودة البيانات قبل بناء أي نموذج. نظرًا لاحتواء البيانات على متغيرات نصية، تم تحويلها إلى صيغة رقمية باستخدام Label Encoding حتى يمكن للنماذج التعامل معها، كما تم تطبيق مقياس Min-Max Scaling لتوحيد نطاق القيم العددية وتحسين أداء الخوارزميات. شمل المشروع أيضًا تحليل العلاقات بين المتغيرات من خلال مصفوفة الارتباط، بالإضافة إلى تنفيذ تحليل المكونات الرئيسية (PCA) يدويًا عبر حساب مصفوفة التباين والتغاير والقيم والمتجهات الذاتية لاستخلاص أهم الأبعاد وتقليل عدد المتغيرات مع الحفاظ على أكبر قدر ممكن من المعلومات. وفي المرحلة الأخيرة تم تقسيم البيانات إلى مجموعة تدريب واختبار تمهيدًا لبناء نموذج تعلم آلي للتنبؤ بسعر السيارة بناءً على خصائصها المختلفة. يعكس هذا المشروع تطبيقًا متكاملًا لخطوات معالجة البيانات الاستكشافية والهندسة المسبقة للبيانات وتقليل الأبعاد، وهي خطوات أساسية لأي نظام تنبؤي يعتمد على تعلم الآلة في المجالات الصناعية والتجارية مثل تسعير السيارات أو تحليل السوق.