تحليل بيانات تيتانيك: كشف أنماط البقاء
الهدف: استخدام تصور البيانات لتحليل اتجاهات البقاء على سفينة تيتانيك.
المكتبات المستخدمة: pandas | numpy | matplotlib | seaborn
إجراء تحليل البيانات لمجموعة بيانات تيتانيك الشهيرة!
كجزء من دورة علم البيانات في مبادرة رواد مصر الرقمية - DEPI في شركة EYouth for Development، استكشفت هذه المجموعة لاستخراج الأفكار الرئيسية.
الأفكار الرئيسية (خطوة بخطوة):
تحميل البيانات: تم استيراد واستكشاف مجموعة بيانات تيتانيك (titanic.csv).
استكشاف البيانات: تم استخدام .info() و .describe() لفهم الهيكل والإحصائيات الوصفية.
القيم المفقودة والعناصر الشاذة: تم تطبيق تقنيات تنظيف البيانات، بما في ذلك:
ملء القيم المفقودة للعمر والأجرة والكابينة.
استخدام تقليص المدى بين الأرباع (IQR) للتعامل مع العناصر الشاذة والتوزيعات المنحرفة (مثل الأجرة).
هندسة الخصائص: تحويل البيانات الفئوية (مثل الجنس) إلى قيم رقمية.
النتائج الرئيسية:
تأثير الدرجة: 63% من ركاب الدرجة الأولى نجوا، مقارنة بـ 16% فقط في الدرجة الثالثة.
انحياز الجنس: 74% من الإناث نجوا، بينما نجا 20% فقط من الذكور.
ارتباط الأجرة: دفع الناجون أجورًا أعلى بكثير (الوسيط: 26 مقابل 11 لغير الناجين).
عامل العمر: الأطفال تحت سن 12 كان لديهم معدل بقاء أعلى، مما يدعم الروايات التاريخية لعمليات الإخلاء.
السرد البصري:
بعد تنظيف البيانات، قمت بتصور اتجاهات البقاء باستخدام:
الرسوم البيانية الشريطية: معدل البقاء حسب الدرجة والجنس.
الرسوم البيانية النقطية: العلاقة بين الأجرة والعمر والبقاء.
الرسوم البيانية الهستوغرامية: مقارنة توزيع الأعمار بين الناجين وغير الناجين.