قمتُ بجمع وتنظيف ومعالجة بيانات أمراض القلب بهدف بناء نموذج تنبؤي دقيق. شمل عملي:
استكشاف البيانات (EDA): تحليل الخصائص الإحصائية، واكتشاف الأنماط والعلاقات بين المتغيرات.
تنظيف البيانات: معالجة القيم المفقودة (Missing Values) والتعامل مع القيم الشاذة (Outliers).
تحويل المتغيرات: توحيد المقاييس (Standardization/Normalization) وتحويل المتغيرات الفئوية (Encoding).
تقسيم البيانات: إنشاء مجموعات تدريب/اختبار (Train/Test Split) مع الحفاظ على توازن الفئات.
تحسين جودة البيانات: تطبيق تقنيات لمعالجة اختلال التوازن مثل SMOTE أو إعادة الوزن (Class Weighting) عند الحاجة.
الأدوات والتقنيات:
Python, Pandas, NumPy, Scikit-learn, Matplotlib/Seaborn
النتيجة:
تهيئة مجموعة بيانات نظيفة وموثوقة جاهزة لبناء نماذج تعلم آلي (مثل Logistic Regression وRandom Forest)، ما ساهم في رفع دقة التنبؤ بنسبة عالية وتحسين موثوقية النتائج.