تحليل بيانات رحلات سيارات الأجرة اليومية في مدينة نيويورك باستخدام مجموعة كبيرة جدا من السجلات، حيث يؤول التحليل إلى تحديد الأنماط والاتجاهات في البيانات وإجراء توقعات حول الطلب على سيارات الأجرة والإيرادات المستقبلية بناءً على تلك الأنماط.
مجموعة البيانات (NYC Taxi Trips):
- تحوي بيانات رحلات سيارات الأجرة الصفراء التي جرت بين عامي 2019 و 2022 في مدينة نيويورك والتي جمعتها عدد من الوكالات المحلية.
- يبلغ عدد السجلات 169 مليون سجل (sample) فيما يبلغ عدد الميزات 19 ميزة (feature) تتضمن معلومات مكانية وزمانية من بدء الرحلة حتى نهايتها و كل أنواع الرسوم والضرائب المدفوعة وماهي طريقة الدفع بالإضافة إلى كل المعلومات الممكنة حول الرحلة والركاب.
خطوات العمل:
1. العمل في بيئة Dask الموزعة من أجل التعامل مع العدد الكبير للسجلات.
2. تنظيف البيانات ومكاملتها: حل مشكلات القيم الفارغة والمتطرفة وكذلك المتناقضة وتحويل البيانات إلى سلسلة زمنية.
3. هندسة السمات (feature engineering): استنتاج سمات إضافية من السمات الأصلية تكون أكثر وضوحا وأكثر مغزى.
4. استكشاف البيانات وتحليلها: الدراسة الإحصائية، دراسة الترابط الخطي بين السمات، دراسة ترابط السلسلة الزمنية، استخراج الأنماط (pattern) وذلك عن طريق نمذجة مكونات كل سلسلة زمنية (أخذنا فقط ميزتين كل منهما اصبح سلسلة زمنية وهما الإيرادات الكلية و عدد الرحلات في كل ساعة لكل يوم من أيام السنة) بنموذج إحصائي (مثل Prophet).
5. استعمال النماذج السابقة للتنبؤ بالإيرادات الكلية و بعدد الرحلات المستقبلية.
تم انجاز العمل مع : abdulbari.alqaseer@gmail.com