طوّرت مستودع بيانات (Data Warehouse) قابل للتوسع باستخدام PostgreSQL بالاعتماد على معمارية Medallion Architecture (Bronze → Silver → Gold)، بهدف بناء خطوط معالجة بيانات متكاملة (End-to-End ETL)، وتنفيذ عمليات التحويل، وتجهيز نماذج بيانات جاهزة للتحليل. يوضح المشروع دورة حياة مستودع البيانات بالكامل باستخدام SQL و PL/pgSQL بدون الاعتماد على أدوات Orchestration خارجية.
المميزات الرئيسية:
? طبقة Bronze:
استيراد البيانات الخام من ملفات CSV القادمة من أنظمة CRM و ERP مع الحفاظ على هيكل المصدر الأصلي لضمان تتبع البيانات (Data Lineage).
? طبقة Silver:
تنظيف البيانات، توحيد الصيغ، تحويل أنواع البيانات (Type Casting)، معالجة القيم المفقودة، ودمج المصادر المختلفة لإنتاج بيانات متسقة وموثوقة.
? طبقة Gold:
تصميم نموذج نجمي (Star Schema) يتضمن جداول حقائق (المبيعات، المخزون) وجداول أبعاد (العملاء، المنتجات، التواريخ) محسّنة للاستعلامات التحليلية.
? خطوط ETL:
تنفيذ سكربتات SQL منظمة حسب الطبقات، إنشاء مفاتيح بديلة (Surrogate Keys)، تطبيق التكامل المرجعي (Referential Integrity)، ودمج مصادر متعددة داخل مستودع بيانات موحد.
? الاختبارات وضمان الجودة:
تطبيق فحوصات جودة البيانات مثل قياس نسب القيم المفقودة، التحقق من صحة المفاتيح الخارجية (FK Validation)، وضمان اتساق المفاتيح البديلة.
? التوثيق:
إعداد دليل بيانات شامل (Data Catalog) ومخططات توضيحية (المعمارية، النموذج النجمي، التكامل، وتدفق ETL) لضمان الوضوح وسهولة الفهم.
الأثر والنتائج:
- إنشاء مجموعات بيانات عالية الجودة وموحدة تدعم استعلامات ذكاء الأعمال (BI) بسرعة وكفاءة.
- إبراز مهارات متكاملة في هندسة البيانات تشمل تصميم قواعد البيانات، بناء ETL، نمذجة البيانات، الاختبار، والتوثيق الاحترافي.