هل تساءلت يوماً لماذا تنجح بعض الأفلام في اكتساح شباك التذاكر بينما تفشل أخرى رغم ميزانيتها الضخمة؟
في هذا المشروع، قمت بإجراء تحليل بيانات شامل لمجموعة بيانات TMDB 5000 Movies، بهدف فهم الأنماط والعوامل التي تؤدي لزيادة شعبية الأفلام وتحقيق أعلى الإيرادات. قمت بتنفيذ دورة حياة تحليل البيانات كاملة (Data Analysis Lifecycle) باستخدام لغة Python.
الخطوات التقنية التي قمت بها:
جمع واستكشاف البيانات (Gathering & Investigating): التعامل مع بيانات ضخمة تحتوي على تفاصيل الميزانيات، الإيرادات، التقييمات، والتصنيفات.
تنظيف البيانات (Data Wrangling): معالجة القيم المفقودة، تحويل أنواع البيانات، وتصفية البيانات غير المنطقية (مثل الأفلام بميزانية 0 دولار) لضمان دقة النتائج.
تحليل البيانات الاستكشافي (EDA): دراسة العلاقات بين المتغيرات المختلفة مثل العلاقة بين الميزانية والإيرادات.
تصور البيانات (Data Visualization): تحويل الأرقام الجافة إلى قصص بصرية مفهومة باستخدام مكتبة Matplotlib.
أهم النتائج التي توصلت إليها (Insights):
عنصر النجاح المالي: أفلام الرسوم المتحركة (Animation) تتصدر قائمة النوع الأكثر تحقيقاً للإيرادات، مما يجعلها الاستثمار الأكثر أماناً.
اللغة والهيمنة: الأفلام الناطقة بالإنجليزية لا تزال تسيطر على السوق العالمي من حيث الانتشار والربحية.
الارتباط المالي: أثبت التحليل وجود علاقة طردية قوية بين حجم الميزانية المرصودة وبين الإيرادات المحققة في معظم التصنيفات.
الأدوات المستخدمة:
Language: Python
Libraries: Pandas, NumPy, Matplotlib
Tools: Jupyter Notebook, VS Code