يتناول هذا المشروع تحليل بيانات Breast Cancer Wisconsin Dataset التي تحتوي على features مستخرجة من صور رقمية لعينات من كتلة الثدي باستخدام fine needle aspirates (FNA). تمثل هذه الخصائص صفات نواة الخلايا مثل radius، texture، perimeter، area وغيرها، بهدف بناء نظام تصنيف يساعد في التنبؤ بما إذا كان الورم malignant أو benign.
تم تنفيذ المشروع وفق منهجية end-to-end Data Science workflow تبدأ بمرحلة Exploratory Data Analysis (EDA) لفهم توزيع البيانات، دراسة العلاقات بين المتغيرات، واكتشاف الأنماط التي تميز الحالات المختلفة. بعد ذلك تم تنفيذ Data Preprocessing والتي شملت معالجة القيم المفقودة، توحيد المقاييس من خلال feature scaling، وتجهيز البيانات لمرحلة النمذجة.
في مرحلة النمذجة، تم بناء نموذج Logistic Regression كأحد نماذج supervised classification لتصنيف الأورام إلى خبيثة أو حميدة بناءً على الخصائص المدخلة. تم تقييم أداء النموذج باستخدام مقاييس مثل accuracy، precision، recall، وconfusion matrix لضمان موثوقية النتائج خاصة في السياق الطبي الذي يتطلب دقة عالية.
يهدف المشروع إلى تقديم نموذج تنبؤي يمكن الاعتماد عليه في دعم early breast cancer detection، مما يساعد في تحسين سرعة التشخيص ودقة اتخاذ القرار الطبي باستخدام تقنيات machine learning for healthcare applications.