وصف المشروع:
قمت بإجراء تحليل شامل لمجموعة بيانات تحتوي على أكثر من 4800 فيلم من قاعدة بيانات TMDB، وذلك باستخدام Python ومكتبات تحليل البيانات.
ما تم إنجازه:
تنظيف البيانات: حذف الأعمدة غير الضرورية، معالجة القيم المفقودة، واستخراج البيانات المتداخلة من صيغة JSON
هندسة الميزات: تحويل أعمدة الأنواع والكلمات المفتاحية وشركات الإنتاج إلى متغيرات ثنائية (One-Hot Encoding) لأكثر من 250 عموداً
التحليل الاستكشافي: دراسة العلاقة بين الميزانية والإيرادات (ارتباط 0.73)، تأثير الشهر على الإيرادات، وتوزيع الأنواع السينمائية
التصور البياني: رسوم بيانية متنوعة تشمل Pie Chart وScatter Plot وBar Chart
الأدوات المستخدمة:
Python | Pandas | NumPy | Matplotlib | Seaborn