نبذة عن المشروع
يهدف هذا المشروع إلى بناء نظام متكامل لمعالجة بيانات الرعاية الصحية وتجهيزها للتحليل. يعتمد المشروع على إنشاء Data Pipeline تقوم باستخراج البيانات وتنظيفها والتحقق من جودتها، ثم تخزينها في بنية منظمة يمكن استخدامها في التحليلات والتقارير.
المشكلة
غالبًا ما تأتي بيانات الرعاية الصحية من مصادر متعددة وتحتوي على مشاكل في الجودة مثل القيم المفقودة، التكرار، وعدم اتساق التنسيقات، مما يجعل استخدامها في التحليل صعبًا ويؤثر على دقة النتائج.
الحل
تم تصميم نظام Data Engineering يقوم بـ:
جمع البيانات من مصادر مختلفة.
تنفيذ عمليات فحص جودة البيانات (Data Quality Checks).
تنظيف البيانات ومعالجة القيم المفقودة والتكرار.
تحويل البيانات إلى بنية منظمة مناسبة للتحليل.
تجهيز البيانات لاستخدامها في أدوات التحليل ولوحات البيانات.
الأدوات والتقنيات المستخدمة
Python
Pandas
SQL
Great Expectations (للتحقق من جودة البيانات)
Jupyter Notebook
أهم مميزات النظام
تنفيذ اختبارات Data Quality على عدة أبعاد مثل الدقة والاكتمال والاتساق.
إنشاء تقارير توضح حالة جودة البيانات.
تجهيز البيانات في صورة منظمة تدعم عمليات التحليل واتخاذ القرار.