في هذا المشروع قمت بتطوير خط بيانات (Data Pipeline) متكامل لمعالجة وتحليل بيانات رحلات التاكسي في نيويورك. اعتمدت على Airflow لأتمتة جدولة وتنفيذ مهام الـ ETL، مع تشغيل البيئة بالكامل داخل Docker لضمان المرونة وسهولة النشر. تم تخزين البيانات في PostgreSQL مع تحسين الأداء باستخدام Materialized Views للتعامل مع الحجم الكبير للبيانات.
استخدمت dbt لنمذجة البيانات وإنشاء جداول الأبعاد (Dimensions) وجداول الوقائع (Fact Tables)، مما أتاح بناء هيكل بيانات منظم وقابل للتوسع. بعد ذلك، قمت بربط قاعدة البيانات مع Looker لتصميم لوحات تحكم تفاعلية تعرض مؤشرات أساسية مثل:
عدد الرحلات والإيرادات الكلية.
الاتجاهات الشهرية للنمو.
المناطق الأكثر نشاطًا وربحية.
سلوك العملاء وأنماط الدفع.
هذا المشروع يبرز قدرتي على تصميم وتنفيذ خطوط بيانات حديثة باستخدام أحدث الأدوات، وتحويل البيانات الخام إلى رؤى عملية تدعم اتخاذ القرار.