تفاصيل العمل

نظام متكامل لهندسة البيانات مصمم لاستخلاص ومعالجة وتحليل بيانات تقييمات الأفلام من مصادر متعددة تشمل TMDB، وOMDb، وMetacritic، وRotten Tomatoes. يتم تخزين البيانات في بحيرة بيانات (Data Lakehouse) مبنية على Apache Iceberg ومدعومة من Trino وPolaris وMinIO.

يتبع النظام بنية بحيرة بيانات حديثة (Modern Data Lakehouse Architecture) تتكوّن من العناصر التالية:

مصادر البيانات: واجهات TMDB API وOMDb API وبيانات Metacritic وRotten Tomatoes

التخزين: جداول Apache Iceberg محفوظة في نظام MinIO المتوافق مع S3

الفهرس (Catalog): نظام Apache Polaris لإدارة البيانات الوصفية (Metadata)

محرك الاستعلامات: Trino لتنفيذ استعلامات SQL وتحليل البيانات

معالجة البيانات: خط معالجة ETL مبني بلغة Python يتضمن تحسينات شاملة على جودة البيانات وتحليلها

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
1
تاريخ الإضافة
المهارات