تفاصيل العمل

قمت ببناء منصة بيانات متكاملة لتحويل بيانات التجارة الإلكترونية الخام إلى نموذج تحليلي جاهز لاتخاذ القرار باستخدام Python و BigQuery و dbt.

المشروع يعتمد على منهجية ELT الحديثة المستخدمة في منصات البيانات السحابية، حيث يتم تحميل البيانات الخام أولاً ثم تنفيذ جميع التحويلات داخل BigQuery لتحقيق أداء أعلى وقابلية توسع أفضل.

ما الذي تم تنفيذه؟

تحميل 9 جداول مختلفة إلى BigQuery.

بناء طبقة Bronze للاحتفاظ بالبيانات الخام.

إنشاء طبقة Silver لتنظيف البيانات ومعالجة الأخطاء وإزالة التكرار.

تصميم طبقة Gold باستخدام Star Schema.

بناء Fact Table و Dimension Tables جاهزة للتحليل.

إنشاء اختبارات جودة بيانات باستخدام dbt.

تطبيق Referential Integrity بين جميع الجداول.

إنشاء Macros قابلة لإعادة الاستخدام لتقليل تكرار الكود.

التحدي الحقيقي

خلال التطوير فشلت جميع اختبارات العلاقات المرجعية وظهر أكثر من 112 ألف سجل غير مرتبط.

بعد تحليل البيانات تم اكتشاف أن المفتاح customer_id لا يمثل العميل الحقيقي وإنما يمثل معرف عملية الشراء، بينما customer_unique_id هو المعرف الفعلي للعميل.

تم إعادة تصميم نموذج البيانات بالكامل اعتماداً على المفتاح الصحيح واستعادة سلامة العلاقات بنسبة 100%.

النتائج

مستودع بيانات تحليلي جاهز للتقارير ولوحات المعلومات.

نموذج Star Schema احترافي.

Pipeline قابل لإعادة التشغيل دون فقدان البيانات.

جودة بيانات موثقة باختبارات dbt.

بنية قابلة للتوسع لإضافة مصادر بيانات جديدة مستقبلاً.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
تاريخ الإضافة
تاريخ الإنجاز
المهارات