هذا المشروع يهدف إلى بناء نموذج تنبؤ بأسعار العقارات باستخدام تقنيات تعلم الآلة بلغة البرمجة بايثون.
تم استخدام مكتبات قوية ومتخصصة مثل pandas لتحليل وتنظيف البيانات، و numpy للعمليات الحسابية، بالإضافة إلى scikit-learn لبناء وتدريب نموذج التنبؤ باستخدام خوارزمية الغابات العشوائية (Random Forest Regressor) التي تتميز بدقتها ومرونتها في التعامل مع البيانات.
خطوات المشروع:
استيراد البيانات وتحليلها:
قراءة بيانات العقارات من ملف CSV، وفحص جودة البيانات والكشف عن القيم المفقودة.
معالجة البيانات:
تنظيف البيانات وحذف الأعمدة التي تحتوي على قيم مفقودة أو تعويضها بطريقة مناسبة، مع التركيز على الأعمدة الرقمية فقط لاستخدامها في بناء النموذج.
تحليل الارتباط:
حساب معامل الارتباط بين الخصائص المختلفة وسعر المنزل (SalePrice) لاختيار أهم الخصائص التي تؤثر بشكل مباشر على السعر.
تجهيز البيانات للنموذج:
تقسيم البيانات إلى مجموعة تدريب ومجموعة اختبار لضمان تقييم عادل لأداء النموذج.
بناء النموذج:
استخدام خوارزمية الغابات العشوائية (Random Forest) لتدريب نموذج قادر على التنبؤ بسعر المنزل بناءً على الخصائص المختارة.
تقييم النموذج:
قياس دقة النموذج باستخدام مقاييس مثل متوسط مربع الخطأ (MSE) ومعامل التحديد (R² Score)، بالإضافة إلى رسم بياني يقارن بين الأسعار الفعلية والمتوقعة.
حفظ النموذج:
تخزين النموذج والخصائص المستخدمة في ملفين بصيغة pickle لاستخدامها لاحقًا في تطبيقات أخرى أو واجهات تفاعلية.