في هذا المشروع، قمت بتحليل ومعالجة بيانات الركاب في سفينة Titanic بهدف إعدادها للنمذجة التنبؤية. تم استخدام أدوات تحليل البيانات مثل Pandas وSeaborn داخل بيئة Google Colab. مر العمل بعدة مراحل منظمة:
مرحلة التنظيف:
معالجة القيم المفقودة:
ملء القيم المفقودة في عمود Age بالقيمة المتوسطة.
ملء القيم المفقودة في Fare بالقيمة المتوسطة.
حذف عمود Cabin بسبب كثرة القيم المفقودة فيه.
تحويل البيانات الفئوية إلى رقمية:
تحويل عمود Sex إلى قيم رقمية (0 للذكور، 1 للإناث).
تحويل عمود Embarked إلى أعمدة منفصلة باستخدام تقنية One-Hot Encoding.
هندسة الميزات:
إنشاء عمود FamilySize من مجموع SibSp وParch.
إنشاء عمود IsAlone لتحديد ما إذا كان الراكب بمفرده.
حذف الأعمدة غير المفيدة:
حذف أعمدة مثل Name وTicket التي لا تضيف قيمة تحليلية مباشرة.
مرحلة التصوير البياني:
تم استخدام مكتبة Seaborn لإنشاء تصورات توضح العلاقة بين الخصائص المختلفة واحتمالية النجاة، مثل:
مخطط شريطي يوضح معدل النجاة حسب الجنس.
خريطة حرارية توضح الارتباط بين المتغيرات.
تحليل بصري لتوزيع الأعمار ومعدلات النجاة حسب الفئة الاجتماعية.