يقدم هذا المشروع حلاً متكاملاً يعتمد على تعلم الآلة (Machine Learning) للتنبؤ بمخاطر الإصابة بسرطان عنق الرحم. يتضمن المشروع مساراً كاملاً لمعالجة البيانات (Data Analysis Pipeline) بالإضافة إلى لوحة تحكم تفاعلية باستخدام (Streamlit) للقيام بالتنبؤات في الوقت الفعلي.
سير عمل المشروع (Project Workflow)
1. معالجة وتنظيف البيانات (Data Preprocessing & Cleaning)
• التعامل مع القيم المفقودة (Handling Missing Values): تم استبدال قيم ? بـ NaN ومعالجتها باستخدام الوسيط (Median) لكل عمود.
• اختيار الميزات (Feature Selection): استبعاد الأعمدة غير الضرورية مثل STDs: Time since first diagnosis و STDs: Time since last diagnosis نظراً لارتفاع نسبة البيانات المفقودة فيها.
• تحويل البيانات (Type Conversion): تحويل كافة الأعمدة من نوع Object إلى قيم رقمية (Numeric) لضمان توافقها مع النموذج.
2. معالجة اختلال البيانات (Imbalance Handling)
• نظراً لعدم التوازن الكبير في بيانات المجموعة، تم تطبيق تقنية SMOTE لإنشاء عينات اصطناعية للأقلية، مما يساهم في تحسين قدرة النموذج على اكتشاف الحالات المصابة بدقة.
3. نموذج تعلم الآلة (Machine Learning Model)
• الخوارزمية المستخدمة: تم استخدام مصنف الغابة العشوائية (Random Forest Classifier).
• مقاييس التقييم (Evaluation Metrics): * الدقة (Accuracy): حقق النموذج نسبة 96.2%.
o تم تحسين قيم (Precision/Recall) لتتناسب مع متطلبات التقييم الطبي للمخاطر.
• الحفظ (Serialization): تم حفظ النموذج ومعايير المعالجة في ملفات بصيغة .pkl لتسهيل عملية النشر (Deployment).
4. لوحة التحكم التفاعلية (Streamlit Dashboard)
• إدخال البيانات (Real-time Input): يمكن للمستخدم إدخال بيانات المريض (العمر، التدخين، الأمراض المنقولة جنسياً، إلخ) عبر القائمة الجانبية (Sidebar).
• تصوير المخاطر (Risk Visualization): عرض مستوى الخطر كنسبة مئوية عبر مخطط القياس (Gauge Chart) باستخدام مكتبة (Plotly).
• توصيات طبية (Clinical Recommendations): يقدم النظام نصائح طبية آلية (مثل ضرورة إجراء خزعة Biopsy أو المتابعة الدورية) بناءً على نتيجة التنبؤ.