يهدف هذا المشروع إلى بناء نظام تكامل بيانات (ETL) باستخدام Talend لتجميع ومعالجة بيانات من تطبيق مشابه لـ Uber، يحتوي على معلومات عن الرحلات، السائقين، السيارات، وتقييمات العملاء.
في هذا المشروع، يقوم الـ Talend Job بتنفيذ الخطوات التالية:
استخراج البيانات (Extract):
يتم سحب البيانات من قواعد بيانات مختلفة مثل قاعدة بيانات الرحلات، وقاعدة بيانات السائقين، بالإضافة إلى ملفات CSV تحتوي على تقييمات المستخدمين.
التحويل والتنظيف (Transform):
من خلال مكون tMap يتم:
ربط بيانات الرحلات مع السائقين والسيارات.
تنظيف الأعمدة من القيم المكررة أو الناقصة.
استبدال النصوص غير الموحدة (مثلاً تنسيق أسماء المدن أو أنواع السيارات).
التحميل إلى مستودع البيانات (Load):
بعد معالجة البيانات، يتم تحميلها إلى جدول أبعاد مثل Dim_Location أو Fact_Rides داخل مستودع البيانات (Data Warehouse) لاستخدامها لاحقًا في التحليلات ولوحات المتابعة.
التوثيق والتحقق:
يعرض مكون tLogRow النتائج النهائية في سجل التنفيذ للتحقق من جودة البيانات وعدد الصفوف المُحمّلة بنجاح.
تم بناء عملية ETL كاملة تقوم بتجميع بيانات الرحلات والتقييمات من مصادر مختلفة وتحويلها إلى نموذج منظم داخل مستودع البيانات، مما يمكّن فريق التحليل من استخراج مؤشرات الأداء مثل:
عدد الرحلات في كل مدينة
متوسط تقييم السائقين
أنواع السيارات الأكثر استخدامًا