تم العمل على مجموعة بيانات California Housing بهدف فهم العوامل المؤثرة على أسعار المنازل وتحليل العلاقة بين الخصائص الديموغرافية والاجتماعية والاقتصادية وبين القيمة المتوسطة للمنازل.
المهام المنجزة:
- استكشاف البيانات: فحص البيانات الأساسية، القيم المفقودة، والوصف الإحصائي للمتغيرات.
- التحليل البصري (Data Visualization):
- توزيع أسعار المنازل (Median House Value).
- العلاقة بين الدخل المتوسط وسعر المنزل.
- دراسة أثر العمر (House Age) على الأسعار.
- تحليل الارتباط (Correlation Matrix) بين المتغيرات.
- استخدام الرسوم البيانية (Scatter, Heatmap, Pairplot, KDE, Jointplot) لاكتشاف الأنماط.
- هندسة الخصائص (Feature Engineering): إنشاء متغيرات جديدة مثل:
RoomsPerHousehold: عدد الغرف لكل أسرة.
BedPerRoom: عدد غرف النوم لكل غرفة.
النتيجة:
الوصول إلى رؤى بصرية واضحة توضّح أن الدخل المتوسط (MedInc) والمتغيرات المرتبطة بالغرف والعمر تعتبر من أهم العوامل المؤثرة على أسعار المنازل في كاليفورنيا.
الأدوات المستخدمة:
Python (Pandas, NumPy, Matplotlib, Seaborn)