ملخص المشروع:
يهدف هذا المشروع إلى التنبؤ بخطر الإصابة بمرض القلب باستخدام بيانات صحية حقيقية. شمل المشروع تنظيف البيانات، تحويل المتغيرات، التحليل الاستكشافي، وبناء نماذج تعلم آلي لتصنيف المرضى.
أهم النقاط:
يحتوي dataset على 16,859 سجلًا و17 ميزة تشمل معلومات مثل مؤشر كتلة الجسم، التدخين، الصحة الجسدية والنفسية، النشاط البدني، النوم، وأمراض مزمنة.
بعد معالجة البيانات، تم تحويل القيم النصية إلى أرقام وتقسيم البيانات إلى 13,487 للعينة التدريبية و3,372 للعينة الاختبارية.
التوزيع كان: 15,205 بدون مرض القلب، و1,654 مصابون.
أفكار من التحليل الاستكشافي:
أظهرت التحليلات أن الفئة العمرية، الصحة الجسدية، مؤشر كتلة الجسم، وجودة النوم من أهم العوامل المرتبطة بمرض القلب.
نتائج النمذجة وأهمية الميزات:
حقق نموذج الانحدار اللوجستي دقة 91.1%، ونموذج الغابات العشوائية 89.8%، ونموذج شجرة القرار 84.4%.
أهم الميزات المؤثرة في التنبؤ هي مؤشر كتلة الجسم، الفئة العمرية، النوم، الصحة الجسدية، والصحة العامة.
أفكار تجارية:
تُبرز النتائج أهمية المؤشرات الصحية ونمط الحياة في التنبؤ المبكر بمرض القلب، مما يساعد على تقديم توصيات وقائية وتحسين الرعاية الصحية.