يقدم هذا المشروع تحليلًا استكشافيًا للبيانات (EDA) لمجموعة بيانات سريرية تضم 768 مريضًا، مع التركيز على فهم العوامل المرتبطة بمستويات سكر الدم.
بدأ التحليل بمرحلة تنظيف البيانات، حيث تم تحديد القيم الصفرية غير المنطقية بيولوجيًا في المتغيرات الرئيسية - سكر الدم، ومؤشر كتلة الجسم، وضغط الدم - واستُبدلت باستخدام طريقة تعويض الوسيط للحفاظ على سلامة البيانات دون تشويه التوزيع.
بعد مرحلة التنظيف، أُجري تحليل ارتباط بين مؤشر كتلة الجسم وسكر الدم باستخدام اختبارات بيرسون وسبيرمان. وكشفت النتائج عن وجود علاقة إيجابية ضعيفة ولكنها ذات دلالة إحصائية (r = 0.23، p < 0.00001)، حيث يفسر مؤشر كتلة الجسم 5% فقط من التباين في مستويات سكر الدم (r² = 0.05).
تم تطوير لوحة معلومات تفاعلية لعرض النتائج بصريًا عبر ثلاثة رسوم بيانية: مخطط انتشار مع خط انحدار، ومدرج تكراري لتوزيع سكر الدم، ومخطط صندوقي يقارن مؤشر كتلة الجسم بين الجنسين - مما يسمح بالتصفية الديناميكية حسب الجنس لاستكشاف الاختلافات بين المجموعات الفرعية.
تم تطوير لوحة معلومات تفاعلية لعرض النتائج بصريًا عبر ثلاثة رسوم بيانية: مخطط انتشار مع خط انحدار، ومدرج تكراري لتوزيع سكر الدم، ومخطط صندوقي يقارن مؤشر كتلة الجسم بين الجنسين - مما يسمح بالتصفية الديناميكية حسب الجنس لاستكشاف الاختلافات بين المجموعات الفرعية. تشير النتائج إلى أنه في حين أن مؤشر كتلة الجسم هو مؤشر تنبؤي ذو صلة، إلا أنه غير كافٍ كمتغير مستقل، مما يحفز إدراج سمات إضافية مثل العمر والنشاط البدني والتاريخ الوراثي في مراحل النمذجة المستقبلية.