مشروع يهدف إلى تنفيذ التحليل الاستكشافي للبيانات (Exploratory Data Analysis - EDA) على مجموعة بيانات العقارات (Housing Dataset).
يتضمن المشروع:
خطوات التحليل:
استعراض البيانات والتأكد من وجود القيم المفقودة.
استخراج الإحصاءات الوصفية لفهم التوزيع العام للبيانات.
رسم العلاقات بين الخصائص مثل العلاقة بين الدخل المتوسط و قيمة المنازل.
تحليل التوزيع الجغرافي لأسعار المنازل باستخدام إحداثيات (longitude, latitude).
اكتشاف القيم الشاذة والتأكد من تأثيرها على جودة التحليل.
أهمية المشروع:
التحليل الاستكشافي للبيانات يعتبر خطوة محورية قبل أي عملية نمذجة (Modeling)، حيث يساعد على:
فهم خصائص البيانات بشكل شامل.
تحديد المتغيرات الأكثر تأثيراً على أسعار المنازل.
اكتشاف القيم المفقودة والشاذة ومعالجتها.
تحسين جودة المدخلات لبناء نماذج تعلم آلة أكثر دقة وموثوقية.
الأدوات والتقنيات المستخدمة:
Python
Pandas, NumPy لتحليل البيانات
Matplotlib, Seaborn للرسوم البيانية والتحليلات البصرية