مشروع تنبؤ بالبقاء على قيد الحياة في حادثة تيتانيك باستخدام اساليب التنقيب البيانات

تفاصيل العمل

وصف المشروع: تنبؤ بالبقاء على قيد الحياة في حادثة تيتانيك باستخدام تنقيب البيانات

مقدمة

يهدف هذا المشروع إلى التنبؤ بمن نجا ومن لم ينجُ من ركاب السفينة تيتانيك، وذلك باستخدام تقنيات تنقيب البيانات (Data Mining). يعتمد المشروع على تحليل البيانات التاريخية للركاب، مثل العمر، الجنس، الدرجة على متن السفينة، وعدد أفراد العائلة المرافقين، ومن ثم تطبيق خوارزميات تعلم الآلة لاستخلاص الأنماط التي تؤثر على فرص النجاة.

استكشاف البيانات ومعالجتها

- تم **تحميل البيانات** وفحصها، حيث احتوت على معلومات مثل الرقم التعريفي للركاب، الجنس، العمر، فئة التذكرة، الأجرة، نقطة الصعود، ومعدل النجاة.

- تم التعامل مع **القيم المفقودة** عبر:

- تعويض القيم المفقودة في العمر بمتوسط العمر وفقًا للجنس وفئة التذكرة.

- ملء القيم الناقصة في بيانات نقطة الصعود بالقيمة الأكثر تكرارًا.

- حذف الأعمدة غير المهمة مثل رقم المقصورة والتذكرة نظرًا لعدم تأثيرها على التنبؤ.

تحليل البيانات واستكشاف الأنماط

- تم تحليل البيانات باستخدام **التحليل الاستكشافي للبيانات (EDA)**، حيث تم فحص التوزيعات الإحصائية لمتغيرات مثل العمر، الأجرة، وعدد أفراد العائلة.

- تم تصنيف الركاب وفقًا للفئات العمرية، حيث وُجد أن الأطفال والنساء كان لديهم معدل نجاة أعلى مقارنة بالرجال.

- تم إنشاء **مصفوفة الارتباط (Correlation Matrix)** لفهم العلاقة بين المتغيرات المختلفة، مثل تأثير الدرجة وفئة التذكرة على فرص النجاة.

بناء النماذج واختيار أفضل خوارزمية

تمت تجربة عدة خوارزميات تعلم آلي لمعرفة أيها الأكثر دقة في التنبؤ، ومنها:

1. **شجرة القرار (Decision Tree)**

2. **نايف بايز (Naïve Bayes)**

3. **خوارزمية الجيران الأقرب (K-Nearest Neighbors - KNN)**

مقارنة دقة النماذج:

- نموذج **Naïve Bayes** حصل على أعلى دقة بنسبة **80.3%**.

- نموذج **KNN** حصل على دقة **78%**.

- نموذج **شجرة القرار** حصل على دقة **76.4%**.

تطبيق خوارزمية K-Means للتجميع

تمت تجربة **التجميع باستخدام K-Means** لتحديد مجموعات من الركاب بناءً على العمر، الأجرة، والدرجة، حيث تم تصنيفهم إلى ثلاث مجموعات رئيسية.

الاستنتاج والتوصيات

- تبين أن الجنس والفئة على متن السفينة كانا من أكثر العوامل تأثيرًا على معدل النجاة.

- يمكن تحسين دقة التنبؤ باستخدام نماذج أكثر تعقيدًا مثل **XGBoost** أو **Neural Networks**.

- يمكن تحسين جودة البيانات من خلال استخدام مصادر بيانات إضافية مثل قوائم الركاب الرسمية والمعلومات البيومترية.

ملخص المشروع

تم تنفيذ مشروع **تنبؤ البقاء على قيد الحياة في تيتانيك** باستخدام **تقنيات تنقيب البيانات**، حيث تم تحليل البيانات، تنظيفها، واستكشاف الأنماط، ثم بناء نماذج تعلم آلي لاستخلاص التوقعات. أظهرت النتائج أن نموذج **Naïve Bayes** كان الأكثر دقة في التنبؤ بمعدلات النجاة. كما تم استخدام **التجميع (Clustering)** لتصنيف الركاب إلى مجموعات بناءً على الخصائص المشتركة. يمكن تحسين النتائج المستقبلية عبر تجربة نماذج تعلم آلي أكثر تقدمًا.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
8
تاريخ الإضافة
تاريخ الإنجاز
المهارات