Air Quality Data Analysis Project
مشروع تحليل بيانات متكامل يهدف إلى دراسة جودة الهواء وفهم العوامل المؤثرة على مستويات التلوث، باستخدام تقنيات تحليل البيانات والإحصاء.
---
Data Cleaning & Preprocessing
تم التعامل مع بيانات غير نظيفة تحتوي على قيم مفقودة وأخطاء في القياس، من خلال:
* استبدال القيم غير الصحيحة (مثل -200) بقيم مفقودة
* معالجة Missing Values باستخدام المتوسط الحسابي
* تحويل البيانات إلى أنواع مناسبة (Numeric & Datetime)
* إزالة القيم الشاذة باستخدام IQR Method
* تنظيف الأعمدة غير المهمة
الهدف من هذه المرحلة كان تجهيز البيانات لتكون صالحة للتحليل بدقة عالية
---
Feature Engineering
تم إنشاء متغيرات جديدة لدعم التحليل مثل:
* استخراج السنة، الشهر، اليوم من التاريخ
* استخراج الساعة لتحليل التغير خلال اليوم
* تصنيف الأيام إلى Workday و Weekend
* تحويل مستوى CO إلى فئات (Good, Moderate, Unhealthy, Hazardous)
ده ساعد في تحويل البيانات الخام إلى معلومات قابلة للفهم والتحليل
---
Exploratory Data Analysis (EDA)
تم تحليل البيانات باستخدام Visualization لفهم الأنماط:
* تحليل توزيع غاز CO
* مقارنة مستويات التلوث خلال ساعات اليوم
* مقارنة بين أيام العمل والويك إند
* استخدام Boxplot و Histogram لاكتشاف التوزيع والقيم الشاذة
النتائج أظهرت أن التلوث أعلى في أيام العمل بسبب النشاط البشري
---
Statistical Analysis
تم استخدام اختبارات إحصائية للتحقق من النتائج:
* Independent T-Test
* Mann-Whitney U Test
* حساب Effect Size (Cohen’s d)
النتائج أثبتت وجود فرق معنوي في مستوى التلوث بين أيام العمل والويك إند
---
Correlation & Relationships
* تحليل العلاقات بين المتغيرات باستخدام Correlation و Heatmap
* تم اكتشاف ارتباط قوي بين CO وبعض الغازات الأخرى
* تأثير العوامل الجوية كان أقل مقارنة بالعوامل البشرية
---
Dimensionality Reduction (PCA)
تم استخدام PCA لتقليل الأبعاد وتحليل البيانات بشكل أبسط:
* أول مكون يمثل التلوث (Pollution Component)
* المكون الثاني يمثل تأثير الطقس (Weather Component)
* تم الحفاظ على أكثر من 90% من المعلومات باستخدام عدد قليل من المكونات
---
Project Value
يساعد هذا المشروع في:
* فهم أسباب التلوث والعوامل المؤثرة عليه
* دعم اتخاذ قرارات بيئية مبنية على البيانات
* تحسين استراتيجيات مراقبة جودة الهواء
---
Tools & Technologies
* Python
* Pandas & NumPy
* Matplotlib & Seaborn
* Scikit-learn