تفاصيل العمل

في هذا المشروع، قمت بتطوير نظام متطور لتصنيف وتشخيص سرطان الثدي (Breast Cancer Prediction) باستخدام تقنيات التعلم الآلي (Machine Learning). يهدف المشروع إلى بناء نموذج تصنيف عالي الدقة للتمييز بين الأورام الحميدة (Benign) والخبيثة (Malignant) بناءً على الخصائص السريرية للأنسجة.

بدأت المشروع بمرحلة تحليل البيانات الاستكشافي (EDA) لفهم الخصائص الطبية وتوزيعها، حيث قمت بتحليل الميزات المختلفة مثل:

Radius, Texture, Perimeter, Area, Smoothness, Compactness, Concavity, Symmetry, Fractal Dimension.

وقمت باستخدام الأدوات البيانية التالية لتحليل العلاقات وتوزيع الحالات:

- Countplot (لتحليل توازن فئات الهدف).

- Boxplot & Violin Plot (لاكتشاف القيم الشاذة في الخصائص السريرية).

- Correlation Heatmap (لفهم الارتباط بين السمات المختلفة وتجنب التكرار).

بعد ذلك، انتقلت إلى مرحلة معالجة البيانات (Data Preprocessing) والتي شملت:

- معالجة القيم المفقودة (إن وجدت) لضمان سلامة البيانات.

- استخدام LabelEncoder لتحويل تصنيفات الهدف (M/B) إلى قيم رقمية.

- معالجة مشكلة عدم توازن البيانات (Imbalanced Data) باستخدام تقنية SMOTE.

- تقسيم البيانات إلى مجموعات تدريب واختبار (Training and Test sets).

- استخدام StandardScaler لتوحيد مقاييس البيانات لضمان دقة عمل الخوارزميات.

لتطوير النموذج، قمت بتجربة ومقارنة مجموعة كبيرة من خوارزميات التصنيف:

- Logistic Regression

- K-Neighbors Classifier (KNN)

- Support Vector Machine (SVC)

- Decision Tree & Random Forest

- Bagging & Extra Trees Classifier

- AdaBoost & Gradient Boosting

- XGBoost, LightGBM, CatBoost

كما استخدمت تقنية GridSearchCV لإجراء عملية ضبط المعلمات (Hyperparameter Tuning) للوصول إلى أفضل دقة ممكنة. تم تقييم النماذج باستخدام مقاييس أداء دقيقة تشمل:

- Accuracy Score

- Precision & Recall

- F1-Score

- Confusion Matrix

- ROC-AUC Curve

في النهاية، تم اختيار النموذج الأفضل الذي حقق أعلى قدرة تنبؤية بأقل نسبة خطأ في التشخيص، وقمت بحفظ النموذج النهائي والمقياس (Scaler) باستخدام مكتبة Joblib ليكون جاهزاً للاستخدام في التطبيقات الطبية التشخيصية.

التقنيات المستخدمة:

- Python

- Pandas & NumPy

- Scikit-learn

- XGBoost, LightGBM, CatBoost

- Imbalanced-learn (SMOTE)

- Matplotlib & Seaborn

ناتج المشروع:

بناء نموذج تصنيف طبي قادر على المساعدة في التشخيص المبكر لسرطان الثدي بدقة عالية جداً، مما يساهم في تحسين جودة الرعاية الصحية وسرعة اتخاذ القرار الطبي.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
تاريخ الإنجاز
المهارات