تفاصيل العمل

نظرة عامة

يتضمن هذا المشروع بناء نموذج تعلُّم آلي للتنبؤ بالبقاء على قيد الحياة على متن سفينة تيتانيك استنادًا إلى سمات الركاب المختلفة. والهدف هو استخدام تقنيات التصنيف لتحديد احتمالية البقاء على قيد الحياة وتحديد العوامل الرئيسية التي ساهمت في البقاء على قيد الحياة.

مجموعة البيانات

مجموعة البيانات المستخدمة لهذا المشروع هي مجموعة بيانات تيتانيك، والتي تحتوي على معلومات حول الركاب على متن سفينة تيتانيك. وهي تتضمن الأعمدة التالية:

PassengerId: معرف فريد لكل راكب.

Pclass: فئة الركاب (الأولى أو الثانية أو الثالثة).

Name: اسم الراكب.

Sex: جنس الراكب.

Age: عمر الراكب.

SibSp: عدد الأشقاء/الأزواج على متن السفينة.

Parch: عدد الوالدين/الأطفال على متن السفينة.

Ticket: رقم التذكرة.

Fare: الأجرة التي يدفعها الراكب.

Embarked: ميناء الصعود إلى السفينة (C = Cherbourg، Q = Queenstown، S = Southampton).

Survived: ما إذا كان الراكب قد نجا (1) أم لا (0).

الأهداف

استكشاف البيانات:

تحميل مجموعة البيانات وفحصها.

التعامل مع القيم المفقودة والقيم المتطرفة.

استكشاف توزيع الميزات والمتغير المستهدف.

هندسة الميزات:

إنشاء ميزات جديدة إذا لزم الأمر (على سبيل المثال، حجم الأسرة، واستخراج العنوان).

ترميز المتغيرات التصنيفية وتطبيع الميزات العددية.

بناء النموذج:

تطوير ومقارنة نماذج التصنيف المختلفة (على سبيل المثال، الانحدار اللوجستي، وأشجار القرار، والغابات العشوائية، وآلة المتجهات الداعمة).

تدريب النماذج باستخدام بيانات التدريب وتقييمها باستخدام التحقق المتبادل.

تقييم النموذج:

تقييم أداء النموذج باستخدام مقاييس مثل الدقة والدقة والتذكر ودرجة F1 وROC AUC.

اختيار أفضل نموذج أداءً بناءً على مقاييس التقييم.

الرؤى والتوصيات:

تحديد الميزات الرئيسية التي تؤثر على فرص البقاء.

تقديم توصيات لتحسين دقة التنبؤ بالبقاء.

بطاقة العمل

اسم المستقل Abd Elrhman Z.
عدد الإعجابات 0
عدد المشاهدات 11
تاريخ الإضافة