تحليل بيانات داتا تايتانك باستخدام مكاتب البايثون

تفاصيل العمل

مشروع تحليل بيانات سفينة تايتانك (Titanic Dataset Analysis)

قمت بتنفيذ مشروع تحليل بيانات متكامل على مجموعة بيانات سفينة تايتانك المنشورة عبر منصة Kaggle، بهدف فهم العوامل المؤثرة في فرص نجاة الركاب وبناء نموذج قادر على التنبؤ بالنجاة بناءً على خصائص كل راكب.

بدأت المشروع بمرحلة استكشاف البيانات (Exploratory Data Analysis) لفهم طبيعة المتغيرات، وأنواع البيانات، وتحديد القيم المفقودة والتكرارات. بعد ذلك قمت بمرحلة تنظيف البيانات (Data Cleaning) والتي شملت:

معالجة القيم المفقودة في متغيرات مثل العمر

التعامل مع القيم الشاذة (Outliers) وتحليل تأثيرها

تحويل بعض المتغيرات النصية إلى متغيرات رقمية قابلة للمعالجة

ثم انتقلت إلى مرحلة تحليل البيانات واستخلاص الأنماط، حيث تم دراسة العلاقة بين النجاة وكل من:

الجنس (Sex)

الدرجة الاجتماعية (Pclass)

العمر (Age)

سعر التذكرة (Fare)

واستخدمت الرسوم البيانية مثل المخططات الصندوقية (Boxplot) والمدرجات التكرارية (Histogram) والمخططات المقارنة لتوضيح النتائج بشكل بصري واضح يسهل تفسيره.

في المرحلة الأخيرة، قمت ببناء نموذج تعلم آلي باستخدام مكتبات Python المتخصصة مثل:

Pandas لمعالجة البيانات

NumPy للحسابات العددية

Matplotlib للتصور البياني

Scikit-learn لبناء النموذج وتقييم أدائه

تم تدريب النموذج واختبار دقته باستخدام أساليب التقييم المناسبة، مع العمل على تحسين الأداء من خلال ضبط المعاملات وتحسين البيانات المدخلة.

هذا المشروع عزز قدرتي على تنفيذ دورة تحليل البيانات كاملة بدايةً من فهم المشكلة وحتى بناء نموذج تنبؤي عملي، مع التركيز على الدقة، وتنظيم الكود، واستخلاص نتائج قابلة للتطبيق.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
4
تاريخ الإضافة
تاريخ الإنجاز
المهارات