يركز هذا العمل على استخدام تقنيات تعلم الآلة للتنبؤ بإصابة المرضى بمرض السكري اعتمادًا على مجموعة من القياسات الطبية والتشخيصية. تعتمد الدراسة على مجموعة بيانات شهيرة صادرة عن National Institute of Diabetes and Digestive and Kidney Diseases (NIDDK)، وتشمل بيانات لنساء فقط من أصول قبائل البيما الهندية، جميعهن بعمر لا يقل عن 21 عامًا.
تحتوي مجموعة البيانات على عدد من المتغيرات التنبؤية مثل عدد مرات الحمل، مؤشر كتلة الجسم (BMI)، مستوى الإنسولين، مستوى الجلوكوز، ضغط الدم، العمر، وغيرها، إضافة إلى المتغير الهدف Outcome الذي يعبّر عن حالة الإصابة بالسكري (مصاب / غير مصاب).
يهدف هذا المشروع إلى بناء نموذج تصنيف (Classification Model) قادر على التنبؤ بدقة بحالات الإصابة بالسكري، مع تقييم أداء النماذج المختلفة ومقارنة نتائجها. كما يساهم التحليل في تحديد أهم العوامل الطبية المرتبطة بمرض السكري، مما يدعم استخدام تقنيات الذكاء الاصطناعي في التنبؤ المبكر وتحسين القرارات الصحية.