قمت بتطوير مشروع متكامل لنقل ومعالجة البيانات (ETL) يركز على سجلات المكالمات في مدينة سياتل، حيث تم تصميم النظام ليعمل بكفاءة عالية، مع ضمان دقة البيانات وقابلية التوسع. يعتمد المشروع على أفضل الممارسات في هندسة البيانات لضمان تدفق سلس للمعلومات من المصدر وحتى لوحات العرض التحليلية.
أبرز ما يميز هذا المشروع:
أتمتة كاملة (Full Automation): استخدام Apache Airflow لإدارة وتدولة تدفق البيانات، مما يضمن تحديث النتائج دورياً دون تدخل بشري.
معالجة البيانات الضخمة: توظيف قوة Apache Spark (عن طريق PySpark) لتنظيف وهيكلة البيانات الضخمة بسرعة وكفاءة.
البنية التحتية السحابية: الاعتماد على Google Cloud Platform (GCP)، وتحديداً:
Google Cloud Storage: لتخزين البيانات الخام والمُعالجة بأمان.
BigQuery: كمستودع بيانات (Data Warehouse) لتحليل البيانات بسرعة فائقة باستخدام SQL.
الحاوية البرمجية (Containerization): استخدام Docker لضمان عمل المشروع في أي بيئة تقنية بنفس الكفاءة وبسهولة تامة في الإعداد.
تحليل ذكي: تصميم نماذج بيانات (Data Schemas) تتيح استخراج تقارير حول أوقات الذروة، أنواع البلاغات، وتوزيعها الجغرافي.
المهارات والتقنيات المستخدمة:
Languagues: Python (PySpark).
Orchestration: Apache Airflow.
Cloud: GCP (BigQuery, GCS).
DevOps: Docker & Docker Compose.
Data Engineering: ETL Design, Data Cleaning, Schema Management.