قمت بتنفيذ مشروع تحليل وتصنيف بيانات سرطان الثدي (Breast Cancer Wisconsin Diagnostic Dataset) بهدف بناء نموذج يعتمد على خوارزمية الانحدار اللوجستي (Logistic Regression) لتمييز الأورام بين حميد (Benign) و خبيث (Malignant).
المهام التي قمت بها:
استكشاف البيانات (EDA):
فحص القيم المفقودة والتكرارات.
تحليل إحصائي ووصفي للبيانات.
دراسة توزيع الخصائص وعدد الفئات المستهدفة.
تصور البيانات (Data Visualization):
رسم الرسوم البيانية (Boxplot, Histogram, Pairplot).
تحليل العلاقة بين الخصائص والمتغير المستهدف.
معالجة البيانات (Data Preprocessing):
ترميز القيم الفئوية (Diagnosis → Malignant = 1, Benign = 0).
تطبيق StandardScaler لتوحيد القيم العددية.
حذف الأعمدة غير الضرورية مثل ID number.
تقسيم البيانات:
تقسيمها إلى بيانات تدريب (Train) واختبار (Test) باستخدام Stratified Split للحفاظ على التوازن بين الفئات.
التعامل مع أي اختلال في توازن البيانات باستخدام تقنيات مثل SMOTE أو class_weight="balanced".
بناء النموذج (Model Training):
تدريب نموذج Logistic Regression على البيانات.
تقييم النموذج (Model Evaluation):
استخدام Confusion Matrix وHeatmap لفهم نتائج التصنيف.
رسم ROC Curve وحساب AUC.
استخراج Classification Report يتضمن: الدقة (Accuracy)، الاستدعاء (Recall)، الدقة النوعية (Precision)، وF1-score.
تفسير النتائج (Model Interpretation):
مقارنة الأداء على بيانات التدريب والاختبار للكشف عن Overfitting/Underfitting.
تحليل الأخطاء (False Positives & False Negatives) وتوضيح أثرها الطبي.