تحليل بيانات Titanic
قمتُ بتنفيذ تحليل استكشافي مفصل للبيانات (EDA) باستخدام مجموعة بيانات Titanic بهدف فهم العوامل الأساسية المؤثرة على النجاة، وتحضير البيانات لاحقًا لعمليات النمذجة والتنبؤ.
تضمَّن عملي ما يلي:
تنظيف ومعالجة البيانات: التعامل مع القيم المفقودة في أعمدة مثل العمر، المقصورة، وميناء الصعود، بالإضافة إلى تحويل المتغيرات الفئوية مثل الجنس و ميناء الصعود إلى قيم رقمية.
التحليل الاستكشافي: دراسة توزيعات المتغيرات مثل العمر، الدرجة (Pclass)، الأجرة، والجنس، وربطها بمعدلات النجاة باستخدام الرسوم البيانية.
أهم النتائج:
النساء والأطفال كانت لديهم فرصة نجاة أعلى بكثير.
الركاب في الدرجات الأعلى (الدرجة الأولى) والذين دفعوا أجرة أعلى كانت لديهم احتمالية أكبر للبقاء.
حجم العائلة أثَّر بشكل واضح؛ حيث أن العائلات الصغيرة كان لديها معدل نجاة أعلى من الأفراد وحدهم أو العائلات الكبيرة جدًا.
النتيجة: أظهر التحليل أن أهم الخصائص المؤثرة على النجاة هي (الجنس، الدرجة، الأجرة، والعمر)، وتم استخدام هذه النتائج لاحقًا لتدريب ومقارنة عدة نماذج تعلم آلي.