تنظيف بيانات الاستروك (Stroke Data Cleaning)
قبل البدء في التحليل أو بناء النماذج التنبؤية، تم تنفيذ مرحلة تنظيف ومعالجة البيانات لضمان دقة النتائج وموثوقيتها.
خطوات تنظيف البيانات:
معالجة القيم المفقودة (Missing Values):
تم فحص الأعمدة والتأكد من وجود بيانات ناقصة.
القيم المفقودة في عمود BMI مثلاً تم تعويضها باستخدام المتوسط أو الوسيط.
التأكد من أنواع البيانات (Data Types):
تحويل الأعمدة النصية (مثل: gender, smoking_status) إلى قيم تصنيفية (Categorical).
التأكد أن الأعمار وBMI أعداد صحيحة/عشرية مناسبة.
إزالة التكرارات (Duplicates):
البحث عن الصفوف المكررة في الجدول وحذفها للحفاظ على جودة البيانات.
معالجة القيم الشاذة (Outliers):
التحقق من وجود قيم غير منطقية (مثلاً عمر = 0 أو BMI = 1000).
تعديلها أو استبعادها حسب الحالة.
توحيد التصنيفات (Standardization):
التأكد أن القيم النصية متناسقة (مثلاً: Male/Female مش مكتوبة بأكثر من طريقة).
تحويل المتغيرات الفئوية إلى صيغة رقمية باستخدام Encoding لتناسب المودلينج.
تطبيع وتقييس البيانات (Normalization/Scaling):
عمل Scaling للمتغيرات المستمرة (مثل العمر وBMI) لتحسين أداء بعض الخوارزميات.