في هذا المشروع قمت بتحليل بيانات رحلات طيران لعدة مدن تشمل 6 شركات طيران مختلفة.
البيانات تم الحصول عليها من Kaggle
وتحتوي على ما يقارب 300,000 صف من البيانات، مما يجعلها Dataset كبيرة تتطلب معالجة دقيقة وتحليل احترافي.
هدف المشروع كان:
• تنظيف وتجهيز البيانات
• تنفيذ تحليل استكشافي شامل (EDA)
• تصميم Dashboard تفاعلية
• بناء نموذج Machine Learning للتنبؤ بأسعار الرحلات
مرحلة تنظيف البيانات و Preprocessing:
تم تنفيذ مرحلة تنظيف احترافية باستخدام Python وتشمل:
• حذف البيانات المكررة
• معالجة القيم المفقودة
• توحيد تنسيقات التواريخ والأوقات
• التعامل مع المتغيرات الفئوية (Categorical Encoding)
• التحقق من سلامة البيانات
نظرًا لحجم البيانات الكبير (300 ألف صف)، كان التركيز على ضمان كفاءة المعالجة وصحة النتائج.
التحليل الاستكشافي للبيانات (EDA):
تم تنفيذ تحليل شامل باستخدام Python لاستخراج أنماط مهمة مثل:
متوسط الأسعار بين الشركات المختلفة
أكثر المدن نشاطًا في الرحلات
العلاقة بين مدة الرحلة والسعر
التحليل ساعد على فهم العوامل المؤثرة في تسعير الرحلات.
لوحة تحكم تفاعلية – Power BI Dashboard:
تم تصميم Dashboard رئيسية تفاعلية باستخدام Power BI تشمل:
• تحليل كامل للرحلات والأسعار
• فلاتر وسلايزر لتحديد المدينة أو شركة الطيران
• أزرار تنقل (Buttons) لتجربة استخدام سهلة
• مؤشرات رئيسية (KPIs)
• رسوم بيانية احترافية لعرض الأنماط
اللوحة مصممة لتكون سهلة الفهم لأي مستخدم غير تقني مع إمكانية استخراج البيانات بسرعة.
نموذج Machine Learning للتنبؤ بالسعر:
تم بناء نموذج تعلم آلي للتنبؤ بسعر الرحلة بناءً على عدة متغيرات مثل:
شركة الطيران
مدينة المغادرة والوصول
مدة الرحلة
وقت الحجز
تم تنفيذ:
تقسيم البيانات إلى Training و Testing
تدريب النموذج
تقييم الأداء وتحليل النتائج
حقق النموذج دقة وصلت إلى 98% على بيانات الاختبار، مما يعكس قوة مرحلة التنظيف والمعالجة وجودة اختيار الخصائص (Features).
الأدوات والتقنيات المستخدمة:
Python
Pandas & NumPy
Matplotlib / Seaborn
Scikit-Learn
Power BI
Feature Engineering