المشروع هدفة التنبؤ بما إذا كان دخل الفرد يتجاوز 50 ألف دولار سنويًا باستخدام تقنيات تعلم الآلة. تم استخدام مجموعة بيانات adult التي تحتوي على معلومات ديموغرافية ووظيفية مثل العمر، المستوى التعليمي، المهنة، الحالة الاجتماعية، وعدد ساعات العمل.
في البداية تم تنفيذ مرحلة معالجة البيانات (Data Preprocessing) والتي شملت تنظيف البيانات، معالجة القيم المفقودة، وتحويل المتغيرات النصية إلى متغيرات رقمية لتصبح مناسبة لتدريب نماذج تعلم الآلة.
بعد ذلك تم تطبيق عدة نماذج مختلفة من خوارزميات تعلم الآلة لتصنيف مستوى الدخل. كما تم مقارنة أداء هذه النماذج باستخدام مقياس الدقة (Accuracy) لتحديد النموذج الأكثر كفاءة في التنبؤ.