تفاصيل العمل

مشروع تحليل بيانات طبية | Healthcare Data Pipeline & Analytics

نبذة عن المشروع:

مشروع متكامل من الألف للياء في هندسة وتحليل البيانات الطبية، يشمل 55,500 سجل لمرضى من مستشفيات متعددة خلال الفترة 2019-2024، وذلك عبر 4 مراحل متكاملة.

المرحلة الأولى — Staging Layer:

- تحميل البيانات الخام كما هي على SQL Server

- إنشاء قاعدة بيانات staging_health وجدول stg_healthcare

- الهدف: الحفاظ على نسخة أصلية من البيانات قبل أي تعديل

المرحلة الثانية — Data Cleaning & Quality Assurance:

- اكتشاف وإزالة 18,635 صفاً فارغاً (33% من البيانات)

- تنظيف الأسماء وتوحيد الأحرف (Title Case)

- إزالة المسافات الزائدة من جميع الأعمدة النصية

- تحويل التواريخ من نص إلى DateTime

- حساب مدة الإقامة (Length of Stay) كمتغير مشتق

- تصحيح القيم السالبة في عمود Billing Amount

- تحويل أنواع البيانات (float إلى integer)

- كشف القيم الشاذة باستخدام Boxplots

- حفظ البيانات النظيفة في قاعدة cleaning_health

المرحلة الثالثة — Data Warehouse (Star Schema):

- تصميم وبناء Star Schema متكامل

- fact_admissions: جدول الحقائق يحتوي على جميع المقاييس الكمية

- dim_patient: العمر، الجنس، فصيلة الدم، التأمين

- dim_doctor و dim_hospital: أبعاد الكيانات

- dim_date: جدول تقويم ديناميكي

- ربط الجداول بعلاقات One-to-Many في قاعدة dw_health

المرحلة الرابعة — Power BI Dashboard (5 صفحات):

- ربط Power BI بقاعدة بيانات Data Warehouse

- بناء نموذج بيانات متكامل مع العلاقات

- كتابة 7 DAX Measures:

Total Admissions | Total Patients | Avg Billing Amount

Avg Length of Stay | % Abnormal Results | % Emergency Cases | Max Billing Amount

- تصميم داشبورد احترافي من 5 صفحات:

Main: صفحة غلاف احترافية

Overview: KPIs ومؤشرات الأداء الرئيسية

Patient Analytics: تحليل ديموغرافي للمرضى

Financial Analytics: تحليل التكاليف والفواتير

Recommendations: توصيات مبنية على البيانات

أبرز النتائج التحليلية:

- Arthritis الأعلى تكلفة بمتوسط $29K لكل حالة

- 33.53% من نتائج الفحوصات Abnormal

- الفئة العمرية 63+ تمثل 31.39% من المرضى

- توزيع متساوٍ بين أنواع الدخول (~33% لكل نوع)

- انخفاض ملحوظ في متوسط الفاتورة عام 2024

الأدوات المستخدمة:

Python | Pandas | Matplotlib | SQL Server | SQLAlchemy | Jupyter Notebook | Power BI | DAX | SSMS

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
4
تاريخ الإضافة