يستعرض هذا المشروع سير عمل كامل ومتكامل في مجال هندسة البيانات والتحليل باستخدام بيانات أفلام ومسلسلات Netflix.
الهدف الأساسي هو التعامل مع ملف بيانات خام يحتوي على الكثير من المشاكل، ثم بناء خط معالجة ETL (استخراج – تحويل – تحميل) لتنظيفه ومعالجته وتجهيزه لاستخدامه في التحليل الاستكشافي (EDA) واستخلاص رؤى مهمة.
المهارات المعروضة في المشروع
تنظيف ومعالجة البيانات: التعامل مع القيم المفقودة، وتصحيح أنواع البيانات، وضمان جودة البيانات.
هندسة الخصائص (Feature Engineering): إنشاء أعمدة جديدة مفيدة من البيانات الأصلية باستخدام تقنيات مثل التعبيرات النمطية (Regex).
التحليل الاستكشافي للبيانات (EDA): الكشف عن الأنماط والاتجاهات داخل البيانات بعد تنظيفها.
تصور البيانات (Data Visualization): عرض النتائج بشكل واضح باستخدام الرسوم البيانية.
الأدوات والمكتبات المستخدمة
اللغة: Python
المكتبات:
Pandas: لمعالجة البيانات وبناء خط الـ ETL.
Matplotlib & Seaborn: لإنشاء رسوم بيانية إحصائية واضحة وفعّالة.
بيئة العمل: Jupyter Notebook
خط معالجة البيانات (ETL)
البيانات الأصلية احتوت على مشاكل شائعة في البيانات الواقعية، وتم تنفيذ خط معالجة بالخطوات التالية:
التعامل مع القيم المفقودة: استخدام خريطة حرارية (Heatmap) لعرض أماكن القيم الفارغة في أعمدة مثل (المخرج – الدولة – طاقم التمثيل)، ثم تم ملؤها بقيمة "Unknown" للحفاظ على سلامة البيانات.
تصحيح أنواع البيانات: تحويل عمود date_added من نصوص إلى نوع تاريخي (Datetime) لتمكين تحليل السلاسل الزمنية. واستخدام errors='coerce' لمعالجة القيم غير المطابقة.
هندسة الخصائص باستخدام Regex: عمود duration كان يحتوي قيم غير منظمة مثل ("90 min" أو "2 Seasons")، فتم استخدام Regex لاستخلاص بيانات رقمية نظيفة، وإضافة عمودين جديدين:
movie_min_duration (مدة الفيلم بالدقائق).
TV_show_Seasons (عدد مواسم المسلسل).
أبرز النتائج والرسوم البيانية
خريطة القيم المفقودة:
أول خطوة أظهرت الأعمدة التي تحتاج تنظيف، مما ساعد على بناء استراتيجية معالجة فعّالة.
أكثر 10 دول إنتاجًا للمحتوى:
بعد تنظيف عمود الدولة، ظهر أن الولايات المتحدة هي أكبر منتج، تليها الهند.
الأنواع الأكثر انتشارًا على نتفلكس:
بتحليل عمود listed_in وُجد أن أكثر الأنواع شيوعًا هي:
الدراما
الكوميديا
الأفلام العالمية (International Movies)
وهو ما يعكس استراتيجية نتفلكس في تنويع المحتوى.