مشروع "توقعات أسعار المنازل باستخدام بيانات أميس"
وصف المشروع:
يهدف هذا المشروع إلى التنبؤ بأسعار المنازل باستخدام بيانات مجموعة Ames Housing. تم استخدام نموذج شجرة القرار (Decision Tree) للتنبؤ بأسعار المنازل استنادًا إلى خصائص مختلفة للمنازل. تم تحديد المعلمات المثلى للنموذج من خلال البحث الشبكي (Grid Search) مع التحقق المتقاطع (Cross-Validation). يهدف المشروع إلى بناء نموذج قوي قادر على التنبؤ بأسعار المنازل وفهم العلاقة بين الخصائص المختلفة وأسعار المنازل.
1. استكشاف البيانات (EDA - Exploratory Data Analysis):
في هذه المرحلة، تم تحليل البيانات لفهم العلاقة بين الخصائص المختلفة للمنازل وسعر البيع (SalePrice). تم استخدام Python مع مكتبات Pandas، Matplotlib، و Seaborn لإجراء تحليلات بيانية لاستكشاف التوزيعات والعلاقات بين المتغيرات المختلفة. الهدف كان اكتشاف الأنماط والاتجاهات في البيانات وفهم كيفية تأثير الخصائص المختلفة على السعر النهائي للمنازل.
2. تنظيف البيانات والتحضير (Data Cleaning & Preprocessing):
تم إجراء العديد من عمليات التحضير والتنظيف لضمان جودة البيانات وتحضيرها بشكل مناسب للنمذجة. شملت هذه المرحلة:
- معالجة القيم المفقودة: تم استخدام أساليب مختلفة مثل الاستبدال بالقيم المتوسطة أو الأكثر شيوعًا حسب نوع المتغير.
- تحجيم الخصائص (Feature Scaling): تم تطبيق مقياس Min-Max لتطبيع البيانات بحيث تتراوح القيم بين 0 و 1 لضمان أداء النموذج بشكل أمثل.
- تحويل المتغيرات الفئوية (One-Hot Encoding): تم تحويل المتغيرات الفئوية مثل المنطقة، النوع، و النوع الهيكلي إلى تمثيلات رقمية باستخدام One-Hot Encoding لتمكين استخدامها في النمذجة.
3. بناء النموذج (Model Building):
تم بناء نموذج شجرة القرار (Decision Tree) للتنبؤ بأسعار المنازل بناءً على الخصائص المختلفة. تم اتباع الخطوات التالية:
- اختيار النموذج: تم استخدام Decision Tree Regressor من مكتبة Scikit-learn لبناء النموذج.
- ضبط المعلمات (Hyperparameter Tuning): تم ضبط المعلمات الأمثل للنموذج باستخدام البحث الشبكي (Grid Search) مع التحقق المتقاطع (Cross-Validation). المعلمات المثلى التي تم تحديدها هي:
max_depth: 11
min_samples_leaf: 14
min_samples_split: 2
4. تقييم النموذج (Model Evaluation):
تم تقييم أداء النموذج باستخدام التحقق المتقاطع (Cross-validation) وتقييمه باستخدام مقياس R-squared لتحديد دقة النموذج. كانت النتائج كما يلي:
- درجة التدريب: 0.8818
- درجة الاختبار: 0.8710
تشير هذه الدرجات العالية إلى أن النموذج يعمل بشكل جيد في التنبؤ بأسعار المنازل بناءً على الخصائص المدخلة.
5. التقنيات المستخدمة:
تحليل البيانات والتصور (Data Analysis & Visualization):
Pandas، Numpy: لتحليل البيانات ومعالجتها.
Matplotlib، Seaborn: لإنشاء الرسوم البيانية والتصورات.
معالجة البيانات (Data Preprocessing):
Min-Max Scaling: لتطبيع البيانات.
One-hot Encoding: لتحويل المتغيرات الفئوية إلى تمثيلات رقمية.
التعلم الآلي (Machine Learning):
Decision Tree Regressor: لبناء نموذج التنبؤ.
تقييم النموذج (Model Evaluation):
Grid Search: لضبط المعلمات.
Cross-validation: لتقييم أداء النموذج.
6. خلاصة:
نجح المشروع في بناء نموذج شجرة القرار للتنبؤ بأسعار المنازل باستخدام مجموعة بيانات Ames Housing. من خلال تحسين المعلمات ومعالجة البيانات بعناية، تم الوصول إلى نموذج دقيق. المشروع أظهر العلاقات الرئيسية بين الخصائص التي تؤثر على أسعار المنازل، مما يعزز القدرة على التنبؤ بأسعار المنازل بشكل موثوق.
اسم المستقل | مازن ا. |
عدد الإعجابات | 0 |
عدد المشاهدات | 4 |
تاريخ الإضافة | |
تاريخ الإنجاز |