في هذا المشروع، تم بناء خط أنابيب بيانات (Data Pipeline) لنقل بيانات الأفلام والمسلسلات الخاصة بـ Netflix من ملف CSV إلى قاعدة بيانات Oracle. تم تنفيذ المشروع باستخدام Python وSQLAlchemy لتنظيف البيانات ومعالجتها وإدارتها بشكل فعال.
________________________________________
تفاصيل المشروع:
1.مصدر البيانات:
oتم تحميل مجموعة بيانات Netflix من منصة Kaggle، حيث تحتوي البيانات على 18,860 سجلًا.
2.خط أنابيب البيانات (Data Pipeline):
oتنظيف البيانات ومعالجتها:
تم تطوير برنامج نصي (Python Script) لتنظيف البيانات ومعالجتها، بما في ذلك التعامل مع القيم الفارغة (Nulls)، وتنسيق البيانات، وفرزها.
oنقل البيانات إلى Oracle:
تم استخدام مكتبة SQLAlchemy لنقل البيانات من ملف CSV إلى جدول مرحلي (Staging Table) في قاعدة بيانات Oracle.
oآلية الإدراج والتحديث (Upsert - SCD Type 1):
تم تطبيق آلية Upsert لإدارة عمليات الإدراج (Insert) والتحديث (Update) في الجدول الهدف (tgt_netflix_cleaned_data).
3.النتائج:
oبعد اكتمال عملية التحويل، احتوى الجدول الهدف على 15,134 سجلًا نظيفًا وجاهزًا للتحليل.
________________________________________
مخرجات المشروع:
•يسلط هذا المشروع الضوء على أساسيات عمليات ETL (استخراج، تحويل، تحميل) في خطوط أنابيب البيانات المهيكلة.
•يدعم المشروع عمليات الإدراج والتحديث بشكل فعال، مما يجعله مناسبًا لإدارة البيانات الديناميكية.