بناء خط بيانات (Data Pipeline) متكامل بنظام ELT لبيانات تاكسي نيويورك باستخدام أداة Bruin

تفاصيل العمل

نوع العمل

مشروع هندسة بيانات (Data Engineering) متكامل يعتمد على منهجية ELT (استخراج، تحميل، ثم تحويل)، يهدف إلى معالجة ضخمة لبيانات حقيقية وتحويلها إلى تقارير تحليلية جاهزة لاتخاذ القرار.

مميزات المشروع

تكامل التقنيات: استخدام أداة Bruin الموحدة لإدارة الـ Ingestion والـ Transformation في بيئة واحدة.

معالجة ذكية: تطبيق استراتيجيات التحديث التدريجي (Incremental Processing) باستخدام time_interval لتقليل استهلاك الموارد وسرعة التنفيذ.

جودة البيانات (Data Quality): دمج اختبارات الجودة (Quality Checks) مثل not_null و unique كجزء أساسي من خط البيانات لضمان دقة النتائج.

هندسة هجينة: الدمج بين قوة لغة Python في سحب البيانات من الـ APIs ومرونة SQL في معالجة البيانات وبناء التقارير.

قابلية التوسع: التصميم مهيأ للعمل محلياً على DuckDB أو النقل السحابي إلى Google BigQuery.

طريقة التنفيذ

سأقوم بتنفيذ المشروع عبر هيكلية منظمة (Layered Architecture):

طبقة الاستخراج (Ingestion): سحب البيانات الخام من TLC APIs باستخدام Python ومعالجة ملفات Parquet الضخمة.

طبقة التهيئة (Staging): تنقية البيانات، إزالة التكرارات باستخدام (Composite Keys)، ودمجها مع جداول مرجعية (Seed Assets).

طبقة التقارير (Reporting): بناء نماذج بيانات تجميعية (Aggregated Metrics) تعكس مؤشرات الأداء الرئيسية للمبيعات والرحلات.

الأتمتة والارتباط: استخدام Bruin CLI لربط المهام (Orchestration) ومتابعة تسلسل تنفيذ العمليات (Lineage).

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
تاريخ الإنجاز
المهارات