يهدف هذا المشروع إلى تحليل بيانات ركاب سفينة تايتانيك وبناء نموذج تعلم آلي قادر على التنبؤ بما إذا كان الراكب قد نجا أم لا، اعتمادًا على مجموعة من الخصائص الشخصية والاجتماعية. يُعد هذا المشروع تطبيقًا عمليًا على خطوات علم البيانات بدءًا من معالجة البيانات وحتى بناء وتقييم النماذج التنبؤية.
شمل المشروع عدة مراحل أساسية، حيث تم أولاً إجراء تحليل استكشافي للبيانات (EDA) لفهم توزيع المتغيرات والعوامل التي أثرت على فرص النجاة، مثل العمر، والجنس، ودرجة السفر (Passenger Class)، وعدد أفراد العائلة، وسعر التذكرة.
بعد ذلك، تم تنفيذ خطوات تنظيف ومعالجة البيانات والتي تضمنت:
التعامل مع القيم المفقودة.
حذف أو تعديل المتغيرات غير المهمة.
تحويل البيانات النصية إلى قيم رقمية باستخدام تقنيات الترميز.
تطبيق Feature Engineering لاستخراج خصائص جديدة تساعد في تحسين أداء النموذج.
استخدام تقنيات Scaling لتحسين كفاءة التدريب.
تم تقسيم البيانات إلى مجموعات تدريب واختبار، ثم تجربة عدة خوارزميات تصنيف لبناء النموذج، مع تقييم الأداء باستخدام مقاييس مثل:
Accuracy
Precision
Recall
F1-score
أظهر النموذج قدرة جيدة على التنبؤ بحالات النجاة، كما ساعد التحليل في اكتشاف أن عوامل مثل الجنس، ودرجة السفر، والعمر كانت من أهم المؤثرات على فرص البقاء.
أهمية المشروع:
يوضح هذا المشروع دورة العمل الكاملة في علم البيانات، ويُظهر القدرة على:
تحليل البيانات واستخلاص الأنماط.
معالجة البيانات وتجهيزها للنماذج.
بناء نماذج تعلم آلي للتصنيف.
تقييم الأداء واختيار النموذج المناسب.