يتناول هذا المشروع تحليل بيانات Pima Indians Diabetes Dataset بهدف فهم العوامل المؤثرة على الإصابة بمرض السكري وبناء نظام تنبؤ يعتمد على Machine Learning models. تم اتباع منهجية end-to-end Data Science workflow تبدأ بمرحلة Exploratory Data Analysis (EDA) لفهم توزيع المتغيرات مثل glucose، BMI، insulin، blood pressure، والعلاقة بينها وبين المتغير الهدف (Outcome).
تم تنفيذ مرحلة Data Preprocessing من خلال معالجة القيم غير المنطقية، التعامل مع missing/zero values، وتطبيق feature scaling لضمان تحسين أداء النماذج وزيادة دقة التنبؤ.
في مرحلة النمذجة، تم تدريب عدة supervised learning models مثل Linear Regression وRandom Forest بهدف مقارنة الأداء واختيار النموذج الأكثر كفاءة في التنبؤ بنتائج الإصابة بالسكري.
بعد الانتهاء من بناء النموذج، تم تحويله إلى interactive web application باستخدام Streamlit، مما يسمح للمستخدم بإدخال القيم الطبية (مثل glucose وBMI وغيرها) والحصول على prediction فوري لاحتمالية الإصابة بمرض السكري. هذا التحويل جعل المشروع أقرب إلى real-world deployment بدلًا من كونه نموذج تحليلي فقط.
يهدف المشروع في النهاية إلى تقديم حل عملي في مجال healthcare analytics يجمع بين data analysis, machine learning, وmodel deployment لدعم التنبؤ المبكر وتحسين اتخاذ القرار الطبي.