هذا العمل عبارة عن تحليل شامل للارتباط (Correlation Analysis) باستخدام لغة بايثون. يهدف التحليل إلى فهم العلاقات بين المتغيرات المختلفة ضمن مجموعة بيانات الأفلام. يتضمن العمل الخطوات التالية:
استيراد البيانات والتحقق الأولي: يتم استيراد بيانات الأفلام والقيام بفحص سريع للبيانات، بما في ذلك التحقق من القيم المفقودة وأنواع البيانات.
تحليل القيم الشاذة (Outliers): يتم استخدام مخططات الصندوق (Box plots) لتحديد أي قيم شاذة في البيانات.
التحقق من التكرارات: يتم إزالة أي صفوف مكررة لضمان دقة التحليل.
تحليل الانحدار (Regression Analysis): يتم إنشاء مخططات انحدار (Regression plots) لتصور العلاقة بين متغيرات مثل الإيرادات (gross) والميزانية (budget)، وكذلك الإيرادات والتقييم (score).
حساب مصفوفات الارتباط (Correlation Matrices): يتم حساب مصفوفات الارتباط باستخدام طرق مختلفة (مثل بيرسون وسبيرمان) للمتغيرات الرقمية، وكذلك للمتغيرات الفئوية بعد تحويلها إلى قيم رقمية باستخدام factorize().
تصور الارتباطات: يتم استخدام خرائط الحرارة (Heatmaps) لتصور مصفوفات الارتباط، مما يسهل فهم قوة واتجاه العلاقات بين المتغيرات.
تحديد الارتباطات القوية: يتم فرز أزواج الارتباطات وتحديد الأزواج ذات الارتباط القوي (أكبر من 0.5).
تحليل إيرادات الشركات: يتم تجميع الإيرادات حسب الشركة والسنة لتحليل أداء الشركات المختلفة.
يهدف هذا العمل إلى توضيح كيفية استخدام بايثون ومكتباتها (مثل Pandas وSeaborn وMatplotlib) لإجراء تحليل ارتباط متعمق واستخلاص رؤى قيمة من البيانات.