تفاصيل العمل

Air Quality Data Analysis Project

مشروع تحليل بيانات متكامل يهدف إلى دراسة جودة الهواء وفهم العوامل المؤثرة على مستويات التلوث، باستخدام تقنيات تحليل البيانات والإحصاء.

---

Data Cleaning & Preprocessing

تم التعامل مع بيانات غير نظيفة تحتوي على قيم مفقودة وأخطاء في القياس، من خلال:

* استبدال القيم غير الصحيحة (مثل -200) بقيم مفقودة

* معالجة Missing Values باستخدام المتوسط الحسابي

* تحويل البيانات إلى أنواع مناسبة (Numeric & Datetime)

* إزالة القيم الشاذة باستخدام IQR Method

* تنظيف الأعمدة غير المهمة

الهدف من هذه المرحلة كان تجهيز البيانات لتكون صالحة للتحليل بدقة عالية

---

Feature Engineering

تم إنشاء متغيرات جديدة لدعم التحليل مثل:

* استخراج السنة، الشهر، اليوم من التاريخ

* استخراج الساعة لتحليل التغير خلال اليوم

* تصنيف الأيام إلى Workday و Weekend

* تحويل مستوى CO إلى فئات (Good, Moderate, Unhealthy, Hazardous)

ده ساعد في تحويل البيانات الخام إلى معلومات قابلة للفهم والتحليل

---

Exploratory Data Analysis (EDA)

تم تحليل البيانات باستخدام Visualization لفهم الأنماط:

* تحليل توزيع غاز CO

* مقارنة مستويات التلوث خلال ساعات اليوم

* مقارنة بين أيام العمل والويك إند

* استخدام Boxplot و Histogram لاكتشاف التوزيع والقيم الشاذة

النتائج أظهرت أن التلوث أعلى في أيام العمل بسبب النشاط البشري

---

Statistical Analysis

تم استخدام اختبارات إحصائية للتحقق من النتائج:

* Independent T-Test

* Mann-Whitney U Test

* حساب Effect Size (Cohen’s d)

النتائج أثبتت وجود فرق معنوي في مستوى التلوث بين أيام العمل والويك إند

---

Correlation & Relationships

* تحليل العلاقات بين المتغيرات باستخدام Correlation و Heatmap

* تم اكتشاف ارتباط قوي بين CO وبعض الغازات الأخرى

* تأثير العوامل الجوية كان أقل مقارنة بالعوامل البشرية

---

Dimensionality Reduction (PCA)

تم استخدام PCA لتقليل الأبعاد وتحليل البيانات بشكل أبسط:

* أول مكون يمثل التلوث (Pollution Component)

* المكون الثاني يمثل تأثير الطقس (Weather Component)

* تم الحفاظ على أكثر من 90% من المعلومات باستخدام عدد قليل من المكونات

---

Project Value

يساعد هذا المشروع في:

* فهم أسباب التلوث والعوامل المؤثرة عليه

* دعم اتخاذ قرارات بيئية مبنية على البيانات

* تحسين استراتيجيات مراقبة جودة الهواء

---

Tools & Technologies

* Python

* Pandas & NumPy

* Matplotlib & Seaborn

* Scikit-learn

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات