تفاصيل العمل

في هذا المشروع قمت بتطوير نموذج تعلم آلي (Machine Learning Model) للتنبؤ بإصابة المرضى بمرض السكري اعتمادًا على مجموعة من البيانات الطبية. يهدف المشروع إلى بناء نظام قادر على تحليل البيانات الصحية واستخراج الأنماط التي تساعد في التنبؤ بوجود المرض بدقة جيدة.

بدأت المشروع بمرحلة استكشاف البيانات (Exploratory Data Analysis - EDA)، حيث قمت بتحليل البيانات وفهم خصائصها واكتشاف العلاقات بين المتغيرات المختلفة باستخدام الرسوم البيانية وتحليل الارتباط بين الخصائص.

بعد ذلك انتقلت إلى مرحلة معالجة البيانات (Data Preprocessing) والتي تضمنت:

- تنظيف البيانات والتعامل مع القيم المفقودة

- معالجة القيم غير المنطقية داخل بعض الأعمدة

- تجهيز البيانات لتكون مناسبة لتدريب نماذج التعلم الآلي

- تقسيم البيانات إلى بيانات تدريب (Training Set) وبيانات اختبار (Test Set)

البيانات المستخدمة تحتوي على مجموعة من الخصائص الطبية مثل:

- عدد مرات الحمل (Pregnancies)

- مستوى الجلوكوز في الدم (Glucose)

- ضغط الدم (Blood Pressure)

- سمك الجلد (Skin Thickness)

- مستوى الإنسولين (Insulin)

- مؤشر كتلة الجسم (BMI)

- التاريخ الوراثي لمرض السكري (Diabetes Pedigree Function)

- العمر (Age)

بعد تجهيز البيانات قمت بتجربة عدة خوارزميات من التعلم الآلي لمقارنة الأداء واختيار أفضل نموذج، مثل:

- K-Nearest Neighbors (KNN)

- Random Forest

- CatBoost

- XGBoost..وغيرهم

كما قمت بعملية تحسين المعاملات (Hyperparameter Tuning) للحصول على أفضل أداء ممكن لكل نموذج، ثم مقارنة النماذج باستخدام عدة مقاييس تقييم مثل:

- Accuracy

- Precision

- Recall

- F1-Score

- ROC-AUC

بعد اختيار أفضل نموذج قمت بتقييم أدائه باستخدام Confusion Matrix وتحليل النتائج لمعرفة قدرة النموذج على التنبؤ بالحالات المصابة وغير المصابة بالسكري.

وأخيرًا قمت بتحليل أهمية الخصائص (Feature Importance) لمعرفة العوامل الأكثر تأثيرًا في التنبؤ بمرض السكري، مما يساعد في فهم البيانات بشكل أعمق.

التقنيات المستخدمة:

- Python

- Pandas

- NumPy

- Scikit-learn

- CatBoost

- Matplotlib

- Seaborn

نتيجة المشروع:

تم بناء نموذج تعلم آلي دقيق جدا قادر على التنبؤ بإصابة المرضى بمرض السكري اعتمادًا على البيانات الطبية، مع تحليل شامل للبيانات ومقارنة عدة خوارزميات لاختيار النموذج الأفضل.

ملفات مرفقة

بطاقة العمل