مشروع يهدف إلى تنظيف البيانات، استكشافها، واستخدام تقنيات التعلم الآلي للتنبؤ بالأسعار واستخراج أنماط خفية.
المهام المنجزة:
- استكشاف البيانات (EDA): تحليل أولي للبيانات لفهم توزيع الأسعار، العلاقة بين المساحة وعدد الغرف والحمامات، وأثر الموقع على الأسعار.
- تنظيف البيانات ومعالجتها: تحويل الأسعار إلى أرقام موحدة، استخراج المساحات والقيم العددية من النصوص (غرف النوم، الحمامات، البلكونات، الطوابق)، ومعالجة القيم المفقودة والمكررة.
- الهندسة المميِّزة (Feature Engineering): إنشاء متغيرات جديدة مثل Log(price) وتحويل البيانات لتكون مناسبة للنمذجة.
- التعلم غير الموجّه (Unsupervised Learning): تطبيق خوارزميات K-Means لتجميع العقارات في مجموعات متشابهة، واستخدام PCA لتقليل الأبعاد وتصور النتائج.
النمذجة (Modeling):
- الانحدار (Regression): بناء نماذج تنبؤية (Linear Regression, Random Forest, Gradient Boosting) لتقدير الأسعار.
- التصنيف (Classification): تحويل الأسعار إلى فئات (منخفض – متوسط – مرتفع) وبناء نماذج (Logistic Regression, Random Forest Classifier) لتصنيف العقارات.
- تقييم الأداء (Evaluation): استخدام مقاييس مثل MAE, RMSE, R² للتنبؤ، وAccuracy, F1-score, Confusion Matrix لتقييم التصنيف.
التقنيات والأدوات:
Python (Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn)
النتيجة:
الحصول على نموذج أولي قادر على التنبؤ بأسعار العقارات بدقة معقولة، واستخراج رؤى بصرية تساعد في فهم العوامل الأكثر تأثيرًا على الأسعار (المساحة، عدد الغرف، الموقع، إلخ).