تفاصيل العمل

هذا المشروع يهدف إلى التنبؤ بما إذا كان دخل فرد ما يتجاوز 50 ألف دولار سنوياً استناداً إلى بيانات التعداد من مستودع UCI لتعلم الآلة. يتضمن مجموعة البيانات ميزات ديموغرافية مختلفة مثل العمر، والطبقة العملية، والتعليم، والمهنة، والجنس، وغيرها. يتضمن هذا المشروع تحضير البيانات، وهندسة الميزات، وتدريب نموذج تعلم الآلة، وتقييم أدائه.

مجموعة البيانات:

تحتوي مجموعة البيانات المستخدمة في هذا المشروع على 48,842 مثال و 14 سمة. المتغير المستهدف هو الدخل، وهو متغير ثنائي يشير إلى ما إذا كان دخل الفرد أكثر من 50 ألف دولار.

الملفات:

adult.csv: ملف مجموعة البيانات الذي يحتوي على بيانات التعداد.

notebook.ipynb: دفتر يحتوي على سير العمل الكامل من تحضير البيانات إلى تقييم النموذج.

README.md: هذا الملف الذي يوفر نظرة عامة عن المشروع.

الاعتماديات:

Python 3.6+

pandas

seaborn

matplotlib

scikit-learn

التحضير الأولي للبيانات:

تشمل خطوات التحضير الأولي:

تحميل مجموعة البيانات.

التعامل مع القيم المفقودة.

ترميز الميزات الفئوية باستخدام ترميز واحد-إلى-الكثير.

التخلص من الميزات الزائدة.

تحويل المتغيرات الفئوية الثنائية إلى صيغة رقمية.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
12
تاريخ الإضافة
تاريخ الإنجاز
المهارات