يهدف هذا المشروع إلى تحليل بيانات مرض السكري والتنبؤ بإمكانية إصابة الشخص بالمرض اعتمادًا على مجموعة من الخصائص الطبية والبيانات الإحصائية.
تم استخدام خوارزميات تعلم الآلة (Machine Learning) لبناء نموذج يستطيع التنبؤ بحالة المريض بدقة عالية، مما يساعد الأطباء والباحثين على فهم العوامل الأكثر تأثيرًا في الإصابة بالمرض.
مصدر البيانات:
تم استخدام Pima Indians Diabetes Dataset، وهو أحد أشهر مجموعات البيانات المتوفرة في مكتبة Scikit-learn.
تحتوي البيانات على معلومات طبية لعدد من النساء من قبيلة Pima الهندية وتشمل الخصائص التالية:
Pregnancies: عدد مرات الحمل
Glucose: مستوى الجلوكوز في الدم
BloodPressure: ضغط الدم
SkinThickness: سمك الجلد
Insulin: مستوى الإنسولين في الدم
BMI: مؤشر كتلة الجسم
DiabetesPedigreeFunction: التاريخ الوراثي للسكري
Age: عمر المريضة
Outcome: النتيجة (1 = مريضة بالسكري، 0 = سليمة)
الأدوات والتقنيات المستخدمة:
Python
Pandas وNumPy لتحليل البيانات
Matplotlib وSeaborn لعرض الرسومات البيانية
Scikit-learn لبناء النماذج واختبارها
Jupyter Notebook كبيئة عمل
خطوات العمل:
استكشاف البيانات (EDA):
تحليل البيانات الإحصائية ومعرفة المتوسطات والانحراف المعياري.
كشف القيم المفقودة أو غير المنطقية.
رسم العلاقات بين المتغيرات.
تنظيف البيانات:
استبدال القيم المفقودة بمتوسط الأعمدة أو باستخدام طرق أخرى.
توحيد القيم وتنقيحها.
تحليل الارتباط:
تحديد المتغيرات الأكثر تأثيرًا في الإصابة بالسكري.
إنشاء مصفوفة الارتباط (Correlation Matrix).
بناء النماذج:
تطبيق خوارزميات مختلفة مثل:
Logistic Regression
Random Forest
K-Nearest Neighbors (KNN)
مقارنة النتائج وتحديد النموذج الأفضل من حيث الدقة (Accuracy) والحساسية (Recall).
تقييم النموذج:
استخدام Confusion Matrix وROC Curve لتقييم الأداء.
النتائج:
تم الحصول على دقة تصل إلى حوالي 78-85% في التنبؤ بالحالة الصحية.
تبين أن أكثر العوامل تأثيرًا في الإصابة بالسكري هي مستوى الجلوكوز ومؤشر كتلة الجسم (BMI).
تم بناء نظام بسيط يمكنه التنبؤ بإصابة شخص بالسكري بناءً على بياناته الطبية.
الخلاصة:
مشروع تحليل بيانات السكري يوضح كيف يمكن لاستخدام تحليل البيانات وتعلم الآلة أن يساعد في المجال الطبي من خلال التنبؤ بالأمراض وتحليل العوامل المسببة لها.
وهو مثال عملي على تطبيق الذكاء الاصطناعي في الرعاية الصحية لتحسين دقة التشخيص واتخاذ القرارات الطبية.