تفاصيل العمل

ذا المشروع يهدف إلى تحليل بيانات الأفراد وبناء نموذج تعلم آلي للتنبؤ بما إذا كان دخل الشخص أكبر أو أقل من 50K سنويًا اعتمادًا على مجموعة من الخصائص الديموغرافية والاقتصادية.

يتضمن المشروع عدة مراحل أساسية في عملية Data Science و Machine Learning Pipeline:

1️⃣ قراءة البيانات وتحليلها

تحميل البيانات باستخدام Pandas

استكشاف شكل البيانات وأنواع الأعمدة

فحص القيم المفقودة داخل الـ Dataset

2️⃣ تنظيف البيانات (Data Cleaning)

معالجة القيم المفقودة في الأعمدة الفئوية باستخدام أكثر قيمة تكرارًا (Mode).

فحص توزيع القيم داخل الأعمدة الفئوية.

3️⃣ هندسة الخصائص (Feature Engineering)

تم إنشاء خصائص جديدة لتحسين أداء النموذج مثل:

تقسيم الأعمار إلى فئات عمرية (Age Groups)

حساب صافي رأس المال (capital gain - capital loss)

حساب رأس المال بالنسبة لساعات العمل

إنشاء متغيرات ثنائية توضح وجود أرباح أو خسائر مالية

4️⃣ تحليل البيانات بصريًا (Data Visualization)

تم إنشاء عدة رسوم بيانية لفهم العلاقات داخل البيانات مثل:

توزيع الدخل حسب الجنس

عدد ساعات العمل بالنسبة للدخل

توزيع العمر بالنسبة للدخل

العلاقة بين الحالة الاجتماعية والدخل

تحليل التعليم الأكثر ارتباطًا بالدخل المرتفع

5️⃣ تجهيز البيانات للنموذج

تحويل المتغيرات الفئوية باستخدام One-Hot Encoding

تقسيم البيانات إلى Training و Testing sets

6️⃣ معالجة عدم توازن البيانات

استخدام خوارزمية SMOTE لزيادة العينات من الفئة الأقل تمثيلًا.

7️⃣ بناء نموذج التعلم الآلي

تم استخدام نموذج Gradient Boosting Classifier داخل Pipeline يحتوي على:

Data preprocessing

SMOTE

Model training

8️⃣ تقييم النموذج

تم تقييم أداء النموذج باستخدام عدة مقاييس:

Accuracy

Classification Report (Precision / Recall / F1-score)

Confusion Matrix

ROC Curve و AUC Score

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات