المشروع ده معمول علشان يساعد في تشخيص سرطان الجلد باستخدام تحليل بيانات حقيقية عن المرضى. الملف فيه بيانات زي السن، نوع الجلد، حجم التورم، وهل حصل فيه تغيّرات ولا لأ، وكمان التشخيص نفسه.
أول خطوة عملتها إنك نظفت البيانات، شلت القيم الناقصة والبيانات المكرّرة، وبعد كده عملت "تحليل استكشافي" علشان تفهم الأرقام وتشوف إذا كان في قيم غريبة أو متطرفة.
رجّعت القيم دي للطبيعة بتاعتها باستخدام حاجة اسمها IQR، وده علشان تخلي النموذج يتدرّب على بيانات منطقية ومظبوطة.
كمان استخدمت مكتبة StandardScaler علشان توحّد المقياس بين القيم المختلفة، وده مهم علشان النماذج الرياضية تشتغل صح.
وفي الآخر، جهّزت البيانات علشان تدخل على خوارزميات تعلم الآلة بعد ما حولت الأعمدة النصيّة لأرقام باستخدام Label Encoder.