مشروع تحليل بيانات طبية | Healthcare Data Pipeline & Analytics
نبذة عن المشروع:
مشروع متكامل من الألف للياء في هندسة وتحليل البيانات الطبية، يشمل 55,500 سجل لمرضى من مستشفيات متعددة خلال الفترة 2019-2024، وذلك عبر 4 مراحل متكاملة.
المرحلة الأولى — Staging Layer:
- تحميل البيانات الخام كما هي على SQL Server
- إنشاء قاعدة بيانات staging_health وجدول stg_healthcare
- الهدف: الحفاظ على نسخة أصلية من البيانات قبل أي تعديل
المرحلة الثانية — Data Cleaning & Quality Assurance:
- اكتشاف وإزالة 18,635 صفاً فارغاً (33% من البيانات)
- تنظيف الأسماء وتوحيد الأحرف (Title Case)
- إزالة المسافات الزائدة من جميع الأعمدة النصية
- تحويل التواريخ من نص إلى DateTime
- حساب مدة الإقامة (Length of Stay) كمتغير مشتق
- تصحيح القيم السالبة في عمود Billing Amount
- تحويل أنواع البيانات (float إلى integer)
- كشف القيم الشاذة باستخدام Boxplots
- حفظ البيانات النظيفة في قاعدة cleaning_health
المرحلة الثالثة — Data Warehouse (Star Schema):
- تصميم وبناء Star Schema متكامل
- fact_admissions: جدول الحقائق يحتوي على جميع المقاييس الكمية
- dim_patient: العمر، الجنس، فصيلة الدم، التأمين
- dim_doctor و dim_hospital: أبعاد الكيانات
- dim_date: جدول تقويم ديناميكي
- ربط الجداول بعلاقات One-to-Many في قاعدة dw_health
المرحلة الرابعة — Power BI Dashboard (5 صفحات):
- ربط Power BI بقاعدة بيانات Data Warehouse
- بناء نموذج بيانات متكامل مع العلاقات
- كتابة 7 DAX Measures:
Total Admissions | Total Patients | Avg Billing Amount
Avg Length of Stay | % Abnormal Results | % Emergency Cases | Max Billing Amount
- تصميم داشبورد احترافي من 5 صفحات:
Main: صفحة غلاف احترافية
Overview: KPIs ومؤشرات الأداء الرئيسية
Patient Analytics: تحليل ديموغرافي للمرضى
Financial Analytics: تحليل التكاليف والفواتير
Recommendations: توصيات مبنية على البيانات
أبرز النتائج التحليلية:
- Arthritis الأعلى تكلفة بمتوسط $29K لكل حالة
- 33.53% من نتائج الفحوصات Abnormal
- الفئة العمرية 63+ تمثل 31.39% من المرضى
- توزيع متساوٍ بين أنواع الدخول (~33% لكل نوع)
- انخفاض ملحوظ في متوسط الفاتورة عام 2024
الأدوات المستخدمة:
Python | Pandas | Matplotlib | SQL Server | SQLAlchemy | Jupyter Notebook | Power BI | DAX | SSMS