مشروع تحليل بيانات أوبر: التنبؤ بأسعار الرحلات وفهم أنماط الطلب في المدن
وصف المشروع:
أقدم لكم مشروع تحليل بيانات متقدم لبيانات شركة أوبر، بعنوان "تحليل بيانات أوبر لتحسين تقدير الأجرة وفهم أنماط الطلب على مستوى المدن". الهدف الأساسي هو بناء نموذج تنبؤ دقيق للأجرة، تحليل سلوك الرحلات، وتقديم لوحة تحكم تفاعلية توضح الرؤى التشغيلية والتجارية.
الأدوات المستخدمة:
Power BI (لتنظيف البيانات، التحليل البصري، وبناء الداشبورد).
Python (لبناء نموذج التنبؤ بالانحدار الخطي).
Excel (للتحقق من البيانات والتحليل الأولي).
مواصفات البيانات:
عدد السجلات: 200,000 رحلة.
عدد الأعمدة: 9 أعمدة.
لا توجد تكرارات.
عمود غير مسمى (تم التعامل معه).
عمود key: معرف فريد لكل رحلة.
ملاحظات هامة:
أسعار سالبة (fare_amount < 0) → تعني رحلات مجانية، قسائم، أو استرداد.
إحداثيات صفرية في نقاط الاستلام/التوصيل → ربما فشل GPS، إخفاء خصوصية، أو مشكلة تحميل بيانات.
عدد ركاب = 0 → ربما خطأ أو رحلة ملغاة.
تم فصل القيم الشاذة (مثل الأسعار ≤ 0، والرحلات بدون إحداثيات) في جداول منفصلة للدراسة.
التحليل والمعالجة:
إصلاح عمود التاريخ والوقت للاستلام.
حذف الأعمدة غير الضرورية.
إنشاء ميزات جديدة:
fare_per_person: الأجرة لكل راكب.
day_or_night: تصنيف الرحلات (نهار/ليل).
distance_km: المسافة بالكيلومترات باستخدام الإحداثيات (حساب هافرسين).
تنظيف البيانات آليًا عبر Power Query في Power BI.
فصل الرحلات المشكوك فيها:
أسعار ≤ 0.
بدون إحداثيات.
أي بيانات غير منطقية.
بناء نموذج تنبؤ بالانحدار الخطي (Linear Regression):
دقة النموذج:
Test R²: 0.8012 (80.12% تفسير للتباين).
Test MAE: 1.664 دولار (متوسط الخطأ المطلق).
Mean CV R²: 0.8551 (تأكيد عدم الإفراط في التكيف - No Overfitting).
تم حفظ النموذج للاستخدام المستقبلي.
إنشاء داشبورد تفاعلي في Power BI مع:
خريطة حرارية للمناطق الأكثر ازدحامًا.
تحليل زمني (نهار/ليل).
توزيع الأسعار والمسافات.
إجابات الأسئلة الرئيسية:.
السؤال,الإجابة
إجمالي المسافة المقطوعة ؟ 4.17 مليون كم
أعلى وأقل أجرة للفرد ؟ أعلى : 499 دولار ، أقل : -16.83 دولار
الطلب أعلى في النهار أم الليل ؟ النهار (طلب أعلى بكثير)
تأثير المسافة على الأجرة ؟ علاقة خطية قوية (كلما زادت المسافة، زادت الأجرة)
الخسارة من الرحلات المجانية/الاسترداد ؟ -288 دولار، عدد الرحلات المجانية: 22
أكثر المناطق ازدحامًا ؟ نيويورك - مانهاتن
التوصيات الاستراتيجية:
زيادة عدد السائقين في فترة النهار → لتلبية الطلب المرتفع.
تركيز السائقين في مانهاتن، نيويورك → المنطقة الأكثر ازدحامًا.
إطلاق عروض ترويجية:
"اركب 10 رحلات شهريًا واحصل على رحلة مجانية" → لزيادة الاحتفاظ بالعملاء.
عروض خاصة على الرحلات الطويلة → لتشجيع استخدام التطبيق خارج المدن.
تحسين تتبع GPS في التطبيق → لضمان دقة البيانات وتجنب الإحداثيات الصفرية.
المهارات المستخدمة:
تنظيف وتحويل البيانات (Power Query).
هندسة الميزات (Feature Engineering).
نمذجة التنبؤ الآلي (Machine Learning - Linear Regression).
التحليل المكاني (Geospatial Analysis).
تصميم داشبورد احترافي (Power BI).