تفاصيل العمل

في هذا المشروع، قمنا بتحليل بيانات الأفراد لتحديد العوامل المؤثرة على دخلهم باستخدام تقنيات تحليل البيانات

وتنظيفها. الهدف الرئيسي كان تصنيف الأفراد بناءً على ما إذا كان دخلهم أكبر من 50KS سنويًا. استخدمنا مجموعة بيانات تحتوي على عدة ميزات تتعلق بالعمر والمهنة، وساعات العمل الأسبوعية، والتعليم، وغيرها. من خلال معالجة وتنظيف البيانات، قمنا بتحديد القيم المفقودة و الشاذة ومعالجتها، كما استخدمنا تقنيات تصورية مثل مخططات boxplot و sunburst لفهم التوزيع والأنماط داخل البيانات.

في هذه الدراسة، تم استخدام مجموعة بيانات Census Income لتقييم أداء مجموعة من خوارزميات التعلم الآلي في التنبؤ بدخل الفرد تم استخدام خوارزميات مثل Logistic Regression, KNN, GussianNB, SVM, Decision Tree Random Forest, Bagging, AdaBoost ، تم قياس أداء هذه الخوارزميات باستخدام مقاييس الأداء الشائعة مثل دقة النموذج ومعدلات الخطأ، ووجدنا ان بعض هذه الخوارزميات تعطي أداء أفضل من غيرها.

ملفات مرفقة