تحليل بيانات طبية (بيانات السكتة الدماغية) باستخدام تقنيات التنقيب عن البيانات (Data Mining) وخوارزميات التعلم الآلي، بهدف بناء نماذج تنبؤية لتحديد احتمالية الإصابة بالسكتة الدماغية. تم تنفيذ المشروع بلغة Python باستخدام مكتبات مثل Pandas، NumPy، Matplotlib، Seaborn، وscikit-learn.
ميزاته:
1. استيراد وتنظيف البيانات (حذف التكرارات، معالجة القيم المفقودة).
2. تحويل البيانات الفئوية إلى بيانات رقمية باستخدام الترميز (Encoding).
3. تقسيم البيانات إلى بيانات تدريب واختبار.
4. تدريب نماذج متعددة للتصنيف مثل:
* خوارزمية الجار الأقرب (K-NN).
* شجرة القرار (Decision Tree).
* مصنف Naive Bayes بنوع Bernoulli.
5. تقييم النماذج باستخدام دقة التنبؤ (Accuracy) والمقارنة بينها.
6. التنبؤ بقيم جديدة بناءً على النماذج المدربة.
7. عرض النتائج في شكل رسوم بيانية لسهولة المقارنة بين النماذج.
طريقة التنفيذ:
1. استيراد البيانات من ملف CSV يحتوي على معلومات مرضى وعوامل الخطر.
2. تحليل البيانات مبدئيًا لمعرفة عدد التكرارات والقيم المفقودة.
3. معالجة البيانات المفقودة وإجراء الترميز للبيانات الفئوية.
4. تقسيم البيانات إلى مجموعة تدريب واختبار بنسبة مناسبة.
5. تدريب نموذج K-NN وتقييم دقته على بيانات الاختبار.
6. تدريب نموذج Decision Tree وتقييمه.
7. تعديل البيانات لتناسب نموذج Bernoulli Naive Bayes ثم تدريبه وتقييمه.
8. رسم مخطط مقارن يوضح دقة النماذج المختلفة لتحديد الأفضل.