تفاصيل العمل

في هذا المشروع، قمت ببناءنموذج تعلم آلي للتنبؤ بأسعار المنازل باستخدام مجموعة بيانات خاصة بالمنازل. بدأت أولاً باستيراد المكتبات الأساسية في بايثون مثل Pandas و NumPy و Matplotlib و Seaborn و Scikit-learn وذلك لمعالجة البيانات، وتحليلها بصريًا، وبناء النماذج.

في البداية، قمت باستكشاف مجموعة البيانات للبحث عن القيم المفقودة ومعالجتها باستخدام استراتيجيات مختلفة. قمت بحذف الأعمدة غير المهمة مثل Idو BsmtFinSF2]، ثم قمت بملء القيم المفقودة في الأعمدة الفئوية مثلMSZoning و Exterior1st باستخدام القيمة الأكثر تكرارًا (mode)، بينما تم تعويض القيم المفقودة في العمود العددي TotalBsmtSFباستخدام القيمة الوسيطة (median)

بعد ذلك قمت بإجراء تحليل استكشافي للبيانات (EDA) لفهم البيانات بشكل أفضل. استخدمت الرسوم البيانية لعرض توزيع متغير الهدف SalePrice باستخدام الهيستوجرام، كما قمت بتطبيق التحويل اللوغاريتمي لرؤية التوزيع بشكل أكثر اعتدالًا. ثم قمت بدراسة العلاقة بين المتغيرات العددية من خلالمصفوفة الارتباط (Correlation Heatmap) بالإضافة إلى تحليل تأثير المتغيرات الفئوية على أسعار المنازل باستخدام مخططات الصندوق (Box Plots) والمخططات الشريطية

بعد فهم البيانات، قمت بتهيئتها لتكون مناسبة لتدريب نماذج التعلم الآلي من خلال تطبيق تقنية One-Hot Encoding على المتغيرات الفئوية مثل MSSubClass و MSZoningو LotConfig و BldgType و Exterior1st، وذلك لتحويلها إلى متغيرات رقمية يمكن للنماذج التعامل معها. كما قمت بتحويل القيم المنطقية (Boolean) إلى أعداد صحيحة لضمان توافقها مع خوارزميات Scikit-learn

بعد ذلك، قمت بتقسيم البيانات إلى مجموعة تدريب ومجموعة تحقق (Validation) لتقييم أداء النماذج على بيانات لم يتم تدريبها عليها من قبل. كما قمت بتوحيد القيم باستخدام StandardScalerلتحسين استقرار وأداء النماذج.

لتوقع أسعار المنازل، قمت بتجربة عدة نماذج انحدار مختلفة، منها:

الانحدار الخطي باستخدام المعادلة الطبيعية (Normal Equation)

خوارزمية الانحدار باستخدام Gradient Descent عبر SGDRegressor

نموذج Lasso Regression الذي يستخدم التنظيم (Regularization)

الانحدار متعدد الحدود (Polynomial Regression) مع Lasso

قمت بتقييم أداء كل نموذج باستخدام معامل التحديد R² وخطأ الجذر التربيعي المتوسط (RMSE)لكل من بيانات التدريب وبيانات التحقق، وذلك لقياس دقة التنبؤ والكشف عن مشكلة الإفراط في التعلّم (Overfitting). كما استخدمتLassoCV لاختيار أفضل قيمة لمعامل التنظيم (alpha) تلقائيًا.

في النهاية، قمت بمقارنة أداء جميع النماذج من خلال رسممخطط شريطي يوضح قيم R² لبيانات التدريب وبيانات التحقق، بالإضافة إلى عرض ملخص النتائج في جدول. ساعدني ذلك على تحديد النموذج الأكثر كفاءة في التنبؤ بأسعار المنازل مع الحفاظ على قدرة جيدة على التعميم.

من خلال هذا المشروع، تمكنت من تطبيق العديد من مهارات معالجة البيانات، تحليل البيانات الاستكشافي، هندسة الخصائص، بناء النماذج، استخدام تقنيات التنظيم (Regularization)، وتقييم النماذج، وهي خطوات أساسية لبناء نماذج تعلم آلي فعالة في مسائل الانحدار

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
تاريخ الإنجاز
المهارات