تفاصيل العمل

تم تحميل بيانات أسعار المنازل وفحصها للتأكد من جودتها وسلامتها، حيث تبين أن البيانات تحتوي على 21613 سجلًا و20 متغيرًا، وجميع الأعمدة خالية من القيم المفقودة، مما يجعلها مناسبة لإجراء التحليل الإحصائي وبناء نموذج تنبؤي.

في مرحلة المعالجة المبدئية، تم حذف بعض المتغيرات غير الضرورية مثل (id، date، waterfront، view، grade، sqft_basement، yr_renovated) بهدف تقليل الضوضاء والتركيز على العوامل الأكثر تأثيرًا في سعر المنزل. كما تم التأكد من سلامة أنواع البيانات وعدم وجود قيم مفقودة.

تم إجراء تحليل استكشافي للبيانات (EDA)، حيث تم دراسة توزيع أسعار المنازل، واتضح أن التوزيع منحرف إلى اليمين، مما يشير إلى وجود عدد قليل من المنازل ذات الأسعار المرتفعة جدًا مقارنة بباقي المنازل. كما تم تحليل العلاقات بين المتغيرات باستخدام مخططات الانتشار ومصفوفة الارتباط.

أظهرت نتائج الارتباط أن المتغيرات الأكثر تأثيرًا على السعر كانت:

مساحة المعيشة (sqft_living)

المساحة العلوية (sqft_above)

عدد الحمامات

الإحداثيات الجغرافية (lat)

حيث وُجد ارتباط موجب قوي بين مساحة المعيشة والسعر، مما يدل على أن زيادة المساحة تؤدي غالبًا إلى زيادة سعر المنزل.

كما تم تحليل التوزيع الخاص بعدد الطوابق (floors)، وتبين أن أغلب المنازل تتكون من طابق أو طابقين، مع نسبة أقل للمنازل متعددة الطوابق.

بعد مرحلة التحليل الاستكشافي، تم تقسيم البيانات إلى بيانات تدريب واختبار، ثم تم تطبيق نموذج انحدار خطي للتنبؤ بأسعار المنازل بناءً على المتغيرات المختارة. وقد أظهرت نتائج النموذج وجود علاقة خطية واضحة بين القيم الحقيقية والمتوقعة، مما يدل على قدرة النموذج على التقاط الاتجاه العام للأسعار.

وأخيرًا، تم تقييم أداء النموذج من خلال مقارنة القيم الفعلية بالقيم المتوقعة باستخدام الرسوم البيانية، حيث أظهر النموذج درجة توافق جيدة، مما يشير إلى إمكانية استخدامه في تقدير أسعار المنازل بناءً على خصائصها المختلفة.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
المهارات