العمل هو تحليل بيانات (Data Analysis) مع احتمالية استخدام نماذج تعلم آلي لاحقًا.
بيعتمد على Python ومكتبات زي:
pandas, numpy لمعالجة البيانات.
matplotlib, seaborn لعمل الرسوم البيانية.
ميزاته
تنظيف البيانات: حذف القيم المكررة والتعامل مع القيم المفقودة.
استكشاف البيانات (EDA): استخدام إحصائيات ورسوم بيانية لفهم العلاقة بين الأعمدة مثل العمر، ضغط الدم، السكر… إلخ، مع خطر الإصابة بالسكتة الدماغية.
تصور البيانات: عمل رسوم (Bar, Heatmap, Histogram) لفهم الارتباطات.
سهولة التطوير: ممكن يتوسع ليشمل بناء نموذج تنبؤي (Machine Learning).
قيمة عملية: مفيد للأبحاث الطبية وتحسين القرارات الصحية.
طريقة التنفيذ
تحميل البيانات:
df = pd.read_csv("stroke_risk_dataset.csv")
استكشاف مبدئي:
df.head() لعرض أول الصفوف.
df.shape لمعرفة حجم البيانات.
df.isnull().sum() لاكتشاف القيم المفقودة.
df.duplicated().sum() لاكتشاف التكرار.
تنظيف البيانات:
حذف التكرارات:
df = df.drop_duplicates().reset_index(drop=True)
معالجة القيم الفارغة أو تعويضها.
تحليل بصري (EDA):
هيتم استخدام sns.heatmap, sns.countplot, plt.hist إلخ.
(اختياري) بناء نموذج ML للتنبؤ بمخاطر السكتة.