تفاصيل العمل

تنظيف بيانات الاستروك (Stroke Data Cleaning)

قبل البدء في التحليل أو بناء النماذج التنبؤية، تم تنفيذ مرحلة تنظيف ومعالجة البيانات لضمان دقة النتائج وموثوقيتها.

خطوات تنظيف البيانات:

معالجة القيم المفقودة (Missing Values):

تم فحص الأعمدة والتأكد من وجود بيانات ناقصة.

القيم المفقودة في عمود BMI مثلاً تم تعويضها باستخدام المتوسط أو الوسيط.

التأكد من أنواع البيانات (Data Types):

تحويل الأعمدة النصية (مثل: gender, smoking_status) إلى قيم تصنيفية (Categorical).

التأكد أن الأعمار وBMI أعداد صحيحة/عشرية مناسبة.

إزالة التكرارات (Duplicates):

البحث عن الصفوف المكررة في الجدول وحذفها للحفاظ على جودة البيانات.

معالجة القيم الشاذة (Outliers):

التحقق من وجود قيم غير منطقية (مثلاً عمر = 0 أو BMI = 1000).

تعديلها أو استبعادها حسب الحالة.

توحيد التصنيفات (Standardization):

التأكد أن القيم النصية متناسقة (مثلاً: Male/Female مش مكتوبة بأكثر من طريقة).

تحويل المتغيرات الفئوية إلى صيغة رقمية باستخدام Encoding لتناسب المودلينج.

تطبيع وتقييس البيانات (Normalization/Scaling):

عمل Scaling للمتغيرات المستمرة (مثل العمر وBMI) لتحسين أداء بعض الخوارزميات.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
تاريخ الإضافة
المهارات