في هذا المشروع، قمت بتحليل بيانات ركاب سفينة Titanic وبناء نموذج Logistic Regression للتنبؤ بما إذا كان الراكب سينجو أم لا. الهدف هو فهم العوامل المؤثرة على النجاة وتطبيق تقنيات معالجة البيانات.
1.البيانات
مجموعة بيانات Titanic الشهيرة من Kaggle، تحتوي على 891 راكبًا وخصائص مثل: الدرجة، الجنس، العمر، عدد أفراد العائلة، سعر التذكرة، وميناء الإقلاع.
2.تحليل البيانات الاستكشافي (EDA)
الدرجة: 63% نجاة في الدرجة الأولى مقابل 24% في الدرجة الثالثة.
الجنس: 74% من النساء نجون مقابل 19% من الرجال.
العمر: الأطفال (أقل من 12 سنة) كانت نسبتهم أعلى في النجاة.
سعر التذكرة: الناجون دفعوا أسعار تذاكر أعلى بغض النظر عن الدرجة.
حجم العائلة: الركاب مع عائلات كانت نسبتهم أعلى في النجاة من العزاب.
3.خطوات المعالجة
إزالة الأعمدة غير المفيدة (PassengerId, Name, Ticket, Embarked).
ملء القيم المفقودة في Age بالمتوسط.
إزالة عمود Cabin لكثرة القيم المفقودة.
تشفير الجنس باستخدام LabelEncoder.
تقسيم البيانات إلى تدريب واختبار بنسبة 80/20.
تطبيع البيانات باستخدام StandardScaler.
4.النموذج والنتائج
النموذج: Logistic Regression
دقة التدريب: 80%
دقة الاختبار: 80%
مصفوفة الارتباك:
[[91 14]
[21 53]]
تقرير التصنيف: precision و recall متوازنان للفئتين.