مشروع متكامل (End-to-End Project) يهدف إلى بناء نموذج انحدار خطي (Linear Regression Model) للتنبؤ بأسعار السيارات المستعملة بناءً على مواصفاتها المختلفة، مع التركيز الكامل على تطبيق المنهجية الصحيحة لعلوم البيانات بدءاً من تنظيف البيانات وحتى تقييم النموذج.
الهدف: مساعدة البائعين والمشترين في تحديد السعر العادل للسيارة بناءً على بيانات السوق.
مراحل العمل بالتفصيل:
1. فهم وتجهيز البيانات (Data Wrangling & Cleaning):
التعامل مع مجموعة بيانات تحتوي على ماركات عالمية (BMW, Toyota, Audi, etc.) ومواصفات مثل (سعة المحرك، المسافة المقطوعة، سنة الصنع).
معالجة القيم المفقودة (Missing Values) والبيانات المكررة لضمان جودة التحليل.
حذف القيم المتطرفة (Outliers) بقص أعلى 1% من البيانات للحفاظ على استقرار النموذج.
2. التحقق من الافتراضات الإحصائية (Checking OLS Assumptions):
هذه الخطوة هي الأهم لضمان صلاحية النموذج، وقمت فيها بـ:
التحقق من الخطية (Linearity): استخدام التحويل اللوغاريتمي (Log-Linear Transformation) لمعالجة العلاقات غير الخطية بين السعر والمواصفات.
فحص التداخل الخطي (Multicollinearity): استخدام معامل تضخم التباين (VIF) لاستبعاد الميزات المترابطة التي قد تضعف النموذج.
3. بناء النموذج والتقييم (Model Building & Evaluation):
تحويل البيانات الفئوية (Categorical Data) إلى بيانات رقمية باستخدام (Dummy Variables).
بناء نموذج الانحدار باستخدام مكتبات Scikit-Learn و Statsmodels.
النتائج: نجح النموذج في توقع الأسعار بفارق خطأ أقل من 25% لنحو 57% من البيانات.
التحليل الختامي: أظهرت النتائج وجود "تحيز المتغير المحذوف" (Omitted Variable Bias)، مما يعني أن هناك عوامل أخرى مؤثرة (لم تكن موجودة في البيانات) نحتاجها لرفع الدقة، وهو استنتاج حيوي لتطوير النموذج مستقبلاً.
الأدوات والتقنيات المستخدمة:
لغة البرمجة: Python.
المكتبات: Pandas, NumPy (للمعالجة)، Matplotlib, Seaborn (للتصوير البياني)، Statsmodels, Scikit-learn (للنمذجة الإحصائية).