تفاصيل العمل

المقدمة

يهدف هذا المشروع إلى تحليل ومعالجة بيانات التايتانيك باستخدام أدوات تحليل البيانات في Python. يتم تنفيذ مجموعة من الخطوات الأساسية مثل استكشاف البيانات، تنظيفها، وتحليلها بصريًا، مما يساعد على استخراج أنماط مفيدة.

2. الأدوات والتقنيات المستخدمة

Pandas: لمعالجة البيانات وتحليلها.

NumPy: لإجراء العمليات الحسابية.

Matplotlib & Seaborn: لإنشاء الرسوم البيانية وتحليل البيانات بصريًا.

Scikit-learn: لاستخدام أدوات مثل LabelEncoder و train_test_split عند الحاجة.

3. خطوات العمل

أ. تحميل واستكشاف البيانات

استيراد البيانات من ملف train1.csv.

عرض أول 5 صفوف لفهم بنية البيانات.

عرض معلومات الأعمدة مثل الأنواع، عدد القيم المفقودة، وغيرها.

ب. معالجة البيانات المفقودة والمكررة

التحقق من القيم المفقودة (isna().sum()).

تعويض القيم الناقصة في Age بالمتوسط (mean()).

تعويض القيم الناقصة في Embarked بالقيمة الأكثر شيوعًا (mode()).

التحقق من البيانات المكررة (duplicated().sum()).

ج. تحليل البيانات بصريًا

رسم مخططات الأعمدة والدوائر لمعرفة توزيع الركاب بناءً على Embarked و Sex.

تحليل التوزيع العمري باستخدام مخطط هيستوغرام (hist()).

4. الهدف من المشروع

فهم العوامل التي قد تكون أثرت على نجاة الركاب في سفينة التايتانيك.

الاستفادة من التحليل في بناء نماذج تعلم الآلة لاحقًا (إذا تم تطوير المشروع).

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
15
تاريخ الإضافة
تاريخ الإنجاز
المهارات