نظام متكامل لهندسة البيانات مصمم لاستخلاص ومعالجة وتحليل بيانات تقييمات الأفلام من مصادر متعددة تشمل TMDB، وOMDb، وMetacritic، وRotten Tomatoes. يتم تخزين البيانات في بحيرة بيانات (Data Lakehouse) مبنية على Apache Iceberg ومدعومة من Trino وPolaris وMinIO.
يتبع النظام بنية بحيرة بيانات حديثة (Modern Data Lakehouse Architecture) تتكوّن من العناصر التالية:
مصادر البيانات: واجهات TMDB API وOMDb API وبيانات Metacritic وRotten Tomatoes
التخزين: جداول Apache Iceberg محفوظة في نظام MinIO المتوافق مع S3
الفهرس (Catalog): نظام Apache Polaris لإدارة البيانات الوصفية (Metadata)
محرك الاستعلامات: Trino لتنفيذ استعلامات SQL وتحليل البيانات
معالجة البيانات: خط معالجة ETL مبني بلغة Python يتضمن تحسينات شاملة على جودة البيانات وتحليلها