قمت بتنفيذ مشروع تحليل استكشافي للبيانات (EDA – Exploratory Data Analysis) وتصوير مرئي لمجموعة بيانات ركاب Titanic الشهيرة.
بدأت بتنظيف البيانات ومعالجة القيم الناقصة في أعمار الركاب وأجور التذاكر باستخدام إحصائيات مناسبة (المتوسط والوسيط حسب الفئة والجنس)، ثم تابعت بإنشاء رسوم بيانية متنوعة لفهم الأنماط والعلاقات بين المتغيرات.
تنظيف البيانات:
- حذف الأعمدة غير الضرورية (مثل Cabin).
- تعويض القيم المفقودة في الأعمار باستخدام الوسيط (Median) حسب الفئة (Pclass) والجنس (Sex).
- تعويض القيم المفقودة في أسعار التذاكر باستخدام المتوسط (Mean) لكل فئة.
استخدام مكتبات بايثون (Python) مثل:
- بانداس (Pandas) و نامباي (NumPy) لمعالجة البيانات.
- ماتبلوتليب (Matplotlib) و سيبورن (Seaborn) للتصوير المرئي.
إنشاء رسوم بيانية توضّح:
- العلاقة بين سعر التذكرة (Fare) والفئة (Pclass) مع حالة البقاء (Survived).
- توزيع الأعمار باستخدام Histogram.
- مقارنة الأجور حسب الفئات باستخدام Boxplots.
- توزيع الركاب حسب الجنس (Countplot).
- علاقة الفئة (Pclass) بميناء الصعود (Embarked) مع الجنس.
إبراز أنماط واضحة مثل:
- الفئات الأعلى تدفع أسعار تذاكر أكبر.
- بعض الفئات مرتبطة بمعدلات بقاء مختلفة.
- فروق واضحة بين الذكور والإناث في عدد الركاب ومعدلات البقاء.