تفاصيل العمل

تحليل بيانات تيتانيك: كشف أنماط البقاء

الهدف: استخدام تصور البيانات لتحليل اتجاهات البقاء على سفينة تيتانيك.

المكتبات المستخدمة: pandas | numpy | matplotlib | seaborn

إجراء تحليل البيانات لمجموعة بيانات تيتانيك الشهيرة!

كجزء من دورة علم البيانات في مبادرة رواد مصر الرقمية - DEPI في شركة EYouth for Development، استكشفت هذه المجموعة لاستخراج الأفكار الرئيسية.

الأفكار الرئيسية (خطوة بخطوة):

تحميل البيانات: تم استيراد واستكشاف مجموعة بيانات تيتانيك (titanic.csv).

استكشاف البيانات: تم استخدام .info() و .describe() لفهم الهيكل والإحصائيات الوصفية.

القيم المفقودة والعناصر الشاذة: تم تطبيق تقنيات تنظيف البيانات، بما في ذلك:

ملء القيم المفقودة للعمر والأجرة والكابينة.

استخدام تقليص المدى بين الأرباع (IQR) للتعامل مع العناصر الشاذة والتوزيعات المنحرفة (مثل الأجرة).

هندسة الخصائص: تحويل البيانات الفئوية (مثل الجنس) إلى قيم رقمية.

النتائج الرئيسية:

تأثير الدرجة: 63% من ركاب الدرجة الأولى نجوا، مقارنة بـ 16% فقط في الدرجة الثالثة.

انحياز الجنس: 74% من الإناث نجوا، بينما نجا 20% فقط من الذكور.

ارتباط الأجرة: دفع الناجون أجورًا أعلى بكثير (الوسيط: 26 مقابل 11 لغير الناجين).

عامل العمر: الأطفال تحت سن 12 كان لديهم معدل بقاء أعلى، مما يدعم الروايات التاريخية لعمليات الإخلاء.

السرد البصري:

بعد تنظيف البيانات، قمت بتصور اتجاهات البقاء باستخدام:

الرسوم البيانية الشريطية: معدل البقاء حسب الدرجة والجنس.

الرسوم البيانية النقطية: العلاقة بين الأجرة والعمر والبقاء.

الرسوم البيانية الهستوغرامية: مقارنة توزيع الأعمار بين الناجين وغير الناجين.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
18
تاريخ الإضافة
تاريخ الإنجاز
المهارات