تحليل بيانات تيتانيك - استكشاف وتصور شامل باستخدام بايثون

تفاصيل العمل

نبذة عن المشروع

أجريت تحليل استكشافي متكامل لبيانات ركاب سفينة تيتانيك، شمل تنظيف البيانات، استخراج الرؤى الإحصائية، وبناء تصورات بصرية لفهم العوامل المؤثرة على معدلات النجاة.

مراحل العمل

تنظيف البيانات

معالجة القيم المفقودة:

العمر: ملء بالوسيط

الكابينة: حذف العمود (77% قيم مفقودة)

ميناء الصعود: ملء بالقيمة الأكثر تكراراً

تحويل أنواع البيانات:

درجة السفر: من أرقام إلى نصوص (First, Second, Third)

الأعمدة النصية: تحويل إلى Category لتحسين الأداء

التحليل الاستكشافي

المؤشرات الأساسية:

معدل النجاة الإجمالي: 38.38%

معدل عدم النجاة: 61.62%

التحليل حسب الجنس:

الإناث: 74.20%

الذكور: 18.89%

التحليل حسب درجة السفر:

الدرجة الأولى: 62.96%

الدرجة الثانية: 47.28%

الدرجة الثالثة: 24.24%

التحليل حسب ميناء الصعود:

شيربورغ: 55.36%

كوينزتاون: 38.96%

ساوثهامبتون: 33.70%

التحليل حسب العمر:

متوسط عمر الناجين: 28.34 سنة

متوسط عمر غير الناجين: 30.63 سنة

التصور البصري

معدل النجاة حسب الجنس

رسم عمودي بألوان متباينة مع نسب مئوية فوق الأعمدة.

معدل النجاة حسب درجة السفر

رسم أفقي بلوحة ألوان Viridis يوضح التدرج في معدلات النجاة.

توزيع الأعمار حسب النجاة

هستوغرام مكدس مع منحنى KDE (أحمر لغير الناجين، أخضر للناجين).

العد حسب الفئة والجنس

Catplot مقسم إلى شبكتين (ناجون وغير ناجين) للمقارنة.

خريطة الارتباط الحرارية

Heatmap بلوحة Coolwarm مع قيم رقمية داخل الخلايا.

النتائج والاستنتاجات

الجنس: العامل الأكثر تأثيراً (نسبة نجاة النساء × 4 مقارنة بالرجال)

الطبقة الاجتماعية: فرص الدرجة الأولى × 2.5 من الدرجة الثالثة

العمر: تأثير محدود نسبياً

ميناء الصعود: اختلافات طفيفة تعكس التوزيع الديموغرافي

المهارات المستخدمة

تنظيف وإعداد البيانات

التحليل الإحصائي الاستكشافي (EDA)

التعامل مع القيم المفقودة

تحويل وهندسة المتغيرات

تصور البيانات المتقدم

Python (Pandas, NumPy, Seaborn, Matplotlib)

سرد القصص بالبيانات

الأدوات المستخدمة

Python 3 - Pandas - NumPy - Seaborn - Matplotlib - Jupyter Notebook

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
16
تاريخ الإضافة
تاريخ الإنجاز
المهارات