تفاصيل العمل

يهدف هذا المشروع إلى بناء نموذج ذكي للتنبؤ بتكلفة رحلات التاكسي (Fare Amount) بدقة عالية، وذلك بالاعتماد على مجموعة بيانات ضخمة تحتوي على 500,000 سجل. تم استخدام تقنيات علم البيانات وتعلم الآلة لتحليل العوامل المؤثرة على السعر مثل المسافة، حالة الطقس، حالة المرور، وتوقيت الرحلة.

الخطوات التي قمت بتنفيذها:

1. فهم وتنظيف البيانات (Data Cleaning & Preprocessing):

استيراد البيانات وفحص الخصائص الإحصائية لها.

معالجة القيم المفقودة (Missing Values) وإزالة البيانات المكررة.

تنظيف البيانات من القيم الشاذة (Outliers) باستخدام تقنية Z-Score لتحسين دقة النموذج.

تنقية البيانات من القيم غير المنطقية (مثل قيم الأجرة السالبة).

إسقاط الأعمدة غير المؤثرة (مثل معرف المستخدم وأسماء السائقين) للتركيز على المتغيرات الهامة.

2. هندسة الخصائص (Feature Engineering):

تحويل البيانات الفئوية (Categorical Data) إلى بيانات رقمية، مثل تحويل "حالة الطقس" و"حالة السيارة" و"حالة المرور" باستخدام (Mapping & One-Hot Encoding).

حساب المسافات الجغرافية بناءً على خطوط الطول والعرض لنقاط الانطلاق والوصول.

3. التحليل الاستكشافي للبيانات (EDA):

دراسة الارتباط (Correlation) بين المتغيرات باستخدام Heatmap.

تحليل توزيع الأسعار وتأثرها بالعوامل المختلفة (مثل الطقس وحالة السيارة) باستخدام المخططات البيانية (Boxplots, Scatterplots, Barplots).

4. بناء نماذج تعلم الآلة (Model Building): تم تطبيق ومقارنة عدة خوارزميات للوصول إلى أفضل دقة:

الانحدار (Regression): تم استخدام خوارزمية XGBoost Regressor وخوارزمية K-Nearest Neighbors (KNN) لتوقع قيمة الأجرة كرقم مستمر.

التصنيف (Classification): تم تجربة خوارزمية Naive Bayes (GaussianNB) لتصنيف الرحلات إلى فئات سعرية (منخفضة، متوسطة، مرتفعة).

النتائج المحققة:

حقق نموذج XGBoost أفضل أداء بدقة (R² Score) بلغت 81.3%، مع معدل خطأ (RMSE) منخفض قدره 2.78، مما يدل على كفاءة النموذج في التوقع.

حقق نموذج KNN دقة بلغت حوالي 75%.

الأدوات والتقنيات المستخدمة:

لغة البرمجة: Python.

مكتبات معالجة البيانات: Pandas, NumPy.

مكتبات التصوير البياني: Matplotlib, Seaborn.

مكتبات تعلم الآلة: Scikit-learn, XGBoost.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
5
تاريخ الإضافة
تاريخ الإنجاز
المهارات