قمت بتنفيذ مشروع كامل لتنظيف ومعالجة بيانات السيارات المستعملة باستخدام SQL، حيث تم التعامل مع بيانات حقيقية تحتوي على العديد من المشكلات مثل القيم المفقودة، التكرارات، وعدم توحيد البيانات.
شمل العمل تحويل البيانات الخام إلى بيانات منظمة وجاهزة للتحليل من خلال خطوات تنظيف ومعالجة متقدمة.
بدأت البيانات بحوالي 426,000 صف (Rows) من البيانات الخام، وبعد عمليات التنظيف والمعالجة الدقيقة أصبحت حوالي 387,000 صف، مما يعكس إزالة البيانات غير الصالحة والتكرارات وتحسين جودة البيانات بشكل كبير.
أبرز المهام التي تم تنفيذها:
معالجة القيم المفقودة (NULL / UNKNOWN)
تنظيف وتوحيد البيانات النصية مثل نوع الوقود وناقل الحركة
إزالة أو معالجة القيم غير المنطقية في الأسعار
استخراج بيانات مهمة من URL مثل:
المنطقة (Region)
الشركة المصنعة (Manufacturer)
الموديل (Model)
سنة الصنع (Year)
اكتشاف ومعالجة التكرارات باستخدام VIN
تجهيز البيانات للتحليل وعمليات الـ Dashboard