تفاصيل العمل

قمت بتنفيذ مشروع تحليل وتصنيف بيانات سرطان الثدي (Breast Cancer Wisconsin Diagnostic Dataset) بهدف بناء نموذج يعتمد على خوارزمية الانحدار اللوجستي (Logistic Regression) لتمييز الأورام بين حميد (Benign) و خبيث (Malignant).

المهام التي قمت بها:

استكشاف البيانات (EDA):

فحص القيم المفقودة والتكرارات.

تحليل إحصائي ووصفي للبيانات.

دراسة توزيع الخصائص وعدد الفئات المستهدفة.

تصور البيانات (Data Visualization):

رسم الرسوم البيانية (Boxplot, Histogram, Pairplot).

تحليل العلاقة بين الخصائص والمتغير المستهدف.

معالجة البيانات (Data Preprocessing):

ترميز القيم الفئوية (Diagnosis → Malignant = 1, Benign = 0).

تطبيق StandardScaler لتوحيد القيم العددية.

حذف الأعمدة غير الضرورية مثل ID number.

تقسيم البيانات:

تقسيمها إلى بيانات تدريب (Train) واختبار (Test) باستخدام Stratified Split للحفاظ على التوازن بين الفئات.

التعامل مع أي اختلال في توازن البيانات باستخدام تقنيات مثل SMOTE أو class_weight="balanced".

بناء النموذج (Model Training):

تدريب نموذج Logistic Regression على البيانات.

تقييم النموذج (Model Evaluation):

استخدام Confusion Matrix وHeatmap لفهم نتائج التصنيف.

رسم ROC Curve وحساب AUC.

استخراج Classification Report يتضمن: الدقة (Accuracy)، الاستدعاء (Recall)، الدقة النوعية (Precision)، وF1-score.

تفسير النتائج (Model Interpretation):

مقارنة الأداء على بيانات التدريب والاختبار للكشف عن Overfitting/Underfitting.

تحليل الأخطاء (False Positives & False Negatives) وتوضيح أثرها الطبي.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
2
تاريخ الإضافة
تاريخ الإنجاز
المهارات