هذا العمل يتضمن تحليلًا شاملاً لمجموعة بيانات التعداد السكاني للبالغين (Adult Census Income) بهدف بناء نموذج تنبؤي للدخل (≤50K أو >50K).
تم تنفيذ المشروع باستخدام لغة Python ومكتبات متخصصة مثل:
Pandas, NumPy لمعالجة البيانات
Scikit-learn لبناء نماذج التعلم الآلي
TensorFlow لبناء شبكة عصبية
Plotly و Seaborn للتصور البيانية
الخطوات الرئيسية:
استكشاف البيانات (EDA):
تحليل التوزيعات والمتغيرات الرقمية والفئوية.
كشف القيم المفقودة والمتطرفة.
معالجة البيانات:
ترميز المتغيرات الفئوية (Label Encoding).
تحجيم البيانات (StandardScaler, MinMaxScaler).
بناء النماذج:
تطبيق خوارزميات متعددة مثل: Logistic Regression، Random Forest، XGBoost، الشبكات العصبية.
استخدام GridSearchCV لتحسين المعاملات.
التقييم:
استخدام مقاييس مثل: Accuracy، F1-Score، Classification Report.
الميزات:
تحليل مرئي متقدم باستخدام Plotly.
مقارنة شاملة بين نماذج متعددة.
توثيق كامل للخطوات والأكواد.