تفاصيل العمل

مقدمة:

تمثل مجموعة بيانات Titanic معلومات عن الركاب الذين كانوا على متن السفينة الشهيرة التي غرقت في رحلتها الأولى عام 1912. تحتوي البيانات على معلومات مثل العمر، الجنس، الدرجة، وعدة متغيرات أخرى يمكن استخدامها لتحليل مختلف العوامل التي قد تكون أثرت على احتمالية النجاة من الكارثة.

خطوات تحليل البيانات:

تحميل البيانات واستكشافها:

تحميل مجموعة البيانات وفحص هيكلها.

عرض الأعمدة والصفوف للتحقق من نوع البيانات وتحديد ما إذا كان هناك أي بيانات مفقودة.

تنظيف البيانات:

معالجة القيم المفقودة باستخدام تقنيات مثل الحذف أو استبدال القيم المفقودة بمتوسطات أو وسائط.

تحويل البيانات إلى أنواع مناسبة (مثل تحويل أعمار الركاب إلى أرقام).

تحليل استكشافي للبيانات (EDA):

تحليل التوزيعات الإحصائية للمتغيرات (مثل توزيع الأعمار، الجنس، والدرجة).

إنشاء رسوم بيانية مثل المخططات الصندوقية (box plots) والرسوم البيانية الشريطية (bar charts) لفهم العلاقة بين المتغيرات المختلفة واحتمالية النجاة.

تحليل العلاقات:

دراسة تأثير الجنس على النجاة باستخدام تحليل الجدول التكراري.

دراسة تأثير الدرجة (الدرجة الأولى، الثانية، الثالثة) على النجاة.

تحليل تأثير العمر على النجاة باستخدام رسوم بيانية توضح توزيع الناجين حسب الفئات العمرية.

النمذجة التنبؤية:

تقسيم البيانات إلى مجموعات تدريب واختبار.

بناء نماذج تنبؤية باستخدام خوارزميات مثل الانحدار اللوجستي (Logistic Regression) وأشجار القرار (Decision Trees).

تقييم أداء النماذج باستخدام مقاييس مثل الدقة (Accuracy) والدقة الإيجابية (Precision).

استخلاص النتائج:

تلخيص النتائج الرئيسية المستخلصة من التحليل.

تقديم توصيات بناءً على النتائج، مثل المتغيرات الأكثر تأثيرًا على النجاة.

نتائج رئيسية:

الجنس: كان لدى النساء احتمالية أعلى للبقاء على قيد الحياة مقارنة بالرجال.

الدرجة: الركاب في الدرجة الأولى كانت لديهم احتمالية أعلى للبقاء على قيد الحياة مقارنة بالركاب في الدرجتين الثانية والثالثة.

العمر: الأطفال كانت لديهم احتمالية أعلى للبقاء على قيد الحياة مقارنة بالبالغين.

ملفات مرفقة

بطاقة العمل

اسم المستقل Kareem W.
عدد الإعجابات 0
عدد المشاهدات 5
تاريخ الإضافة