# تحليل منهجيات تصنيف سرطان الثدي باستخدام التعلم بنقل الخبرة (VGG16)
## 1. مقدمة
لا يزال سرطان الثدي أحد الأسباب الرئيسية للوفيات في جميع أنحاء العالم. ويُعد الكشف المبكر والدقيق أمراً حيوياً لتحسين معدلات البقاء على قيد الحياة. يحلل هذا التقرير نهجين متميزين للتعلم العميق تم تنفيذهما في المهمة المقدمة، حيث يعتمد كلاهما على بنية **VGG16** عبر تقنية "التعلم بنقل الخبرة" (Transfer Learning) لتصنيف الحالات إلى خبيثة أو حميدة.
## 2. وصف المهمة
الهدف الأساسي هو إجراء تصنيف ثنائي (خبيث مقابل حميد). يستكشف النموذج مصدرين مختلفين للبيانات:
*
**النهج الأول:** التصنيف بناءً على الميزات العددية السريرية (بيانات جدولية).
*
**النهج الثاني:** التصنيف بناءً على شرائح صور الأنسجة المرضية (بيانات صور).
---
## 3. مقارنة المنهجية
### 3.1 النهج الأول: تحويل الميزات العددية
يستخدم هذا الكود مجموعة بيانات `load_breast_cancer` من مكتبة Scikit-Learn، والتي تحتوي على 30 ميزة عددية لـ 569 مريضاً.
*
**معالجة البيانات:** يتم قياس الميزات باستخدام `MinMaxScaler`. ولجعلها متوافقة مع الشبكة العصبية التلافيفية (CNN)، تم حشو الميزات الـ 30 لتصل إلى 1024، ثم إعادة تشكيلها إلى "صورة وهمية" بأبعاد .
*
**بنية النموذج:** قاعدة VGG16 (مجمدة)، تليها طبقة كثيفة (64 وحدة)، وطبقة إسقاط (0.2)، ومخرج Sigmoid.
### 3.2 النهج الثاني: تصنيف صور الأنسجة المرضية
يستخدم هذا الكود مجموعة بيانات صور الأنسجة المرضية للثدي، والتي تتكون من قصاصات صور فعلية للأنسجة.
*
**معالجة البيانات:** تم أخذ عينة من 20,000 صورة. تم تغيير حجم الصور إلى بكسل وتطبيعيها، مع استخدام `ImageDataGenerator` للتحميل المنظم.
*
**بنية النموذج:** قاعدة VGG16 (مجمدة)، تليها طبقة كثيفة (256 وحدة)، وطبقة إسقاط (0.5)، ومخرج Sigmoid.
*
**المحسن (Optimizer):** تم استخدام Adam بمعدل تعلم مخصص قدره 0.0001.
---
## 4. ملخص تفاصيل التنفيذ
| الميزة | النهج الأول (عددي) | النهج الثاني (صور) |
| --- | --- | --- |
| **مصدر البيانات** | مجموعة بيانات Sklearn للثدي
| صور Kaggle للأنسجة المرضية
|
| **طبيعة المدخلات** | جدولية (محولة إلى صورة)
| قصاصات صور خام (PNG)
|
| **حجم المدخلات** | <br>
| <br>
|
| **حجم العينة** | 569 سجل
| 20,000 صورة
|
| **الطبقة الكثيفة** | 64 وحدة
| 256 وحدة
|
| **معدل الإسقاط** | 0.2
| 0.5
|
| **الدقة النهائية** | <br>**97%**
| <br>**82.7%**
|
---
## 5. الاستنتاج
تظهر النتائج أن النهج الأول حقق دقة أعلى بنسبة 97%. ومع ذلك، من المهم ملاحظة أن النهج الأول يتعامل مع مجموعة بيانات أصغر و"أكثر نظافة" من الميزات الهيكلية المحسوبة مسبقاً.
في المقابل، يتعامل النهج الثاني مع صور طبية خام، وهي أكثر تعقيداً وتعكس مهام التشخيص الإكلينيكي في العالم الحقيقي. ورغم انخفاض دقة النهج الثاني نسبياً، إلا أنه يثبت قدرة نموذج **VGG16** على استخراج أنماط ذات معنى من أنسجة بيولوجية دون الحاجة إلى هندسة يدوية للميزات.