تحليل بيانات أسعار المنازل باستخدام Python واستخراج مؤشرات الأداء
قمت بتنفيذ مشروع تحليل بيانات متكامل على مجموعة بيانات California Housing والتي تضم أكثر من 20,000 سجل، بهدف فهم العوامل المؤثرة في أسعار المنازل واستخراج مؤشرات واضحة تدعم اتخاذ القرار.
ما تم تنفيذه في المشروع:
تحميل وتجهيز البيانات باستخدام Pandas
فحص هيكل البيانات والتأكد من جودتها
التأكد من عدم وجود قيم مفقودة
تحليل إحصائي شامل (المتوسط، الانحراف المعياري، القيم الدنيا والعليا)
اكتشاف القيم الشاذة (Outliers) باستخدام Boxplot
تحليل توزيع المتغيرات واكتشاف الانحراف (Skewness)
إنشاء خريطة ارتباط (Correlation Heatmap) لتحديد أقوى العوامل تأثيرًا على سعر المنزل
تحليل العلاقة بين الدخل المتوسط وأسعار المنازل
تمثيل جغرافي تفاعلي للأسعار باستخدام Folium لعرض توزيع الأسعار على الخريطة
أهم النتائج:
الدخل المتوسط (MedInc) هو العامل الأكثر ارتباطًا بأسعار المنازل
البيانات نظيفة وخالية من القيم المفقودة
بعض المتغيرات تحتوي على قيم متطرفة تحتاج معالجة في حالة بناء نموذج تنبؤي
الأدوات المستخدمة:
Python
Pandas
NumPy
Matplotlib
Seaborn
Folium
هذا المشروع يعكس قدرتي على تحليل البيانات، استخراج رؤى واضحة، وعرض النتائج بصريًا بشكل احترافي يساعد في فهم البيانات واتخاذ قرارات مبنية على أرقام دقيقة.