تفاصيل العمل

ببدأ بتحميل مكتبتين numpy و pandas و matplotlib

بعد كده بيتم تحميل ملفين بيانات من نوع csv، الأول خاص ببيانات الطاقم، والتاني خاص بالأفلام

بيتم عرض أول 10 صفوف من بيانات الطاقم، وأول 5 صفوف من بيانات الأفلام

بعد كده بيتم طباعة عدد الصفوف والأعمدة في كل جدول

بيتم فحص القيم المفقودة في كل جدول، وبيظهر إن فيه أعمدة ناقصة بيانات زي homepage و tagline و overview و release_date و runtime

اللي ناقص بيتم تعويضه بكلمات بديلة أو يتم حذف الصفوف اللي فيها بيانات ناقصة

بيتم التأكد من عدم وجود صفوف مكررة

بعد كده بيتم تحويل عمود genres من نص إلى قائمة باستخدام ast

الهدف من ده هو استخراج أسماء التصنيفات بدل ما تكون مخزنة كنصوص فيها JSON

بعد كده بيتم دمج الجدولين مع بعض عن طريق عمود id، وبيتم إعادة تسمية الأعمدة الناتجة عن الدمج

بيتم حساب تقييم مرجّح لكل فيلم باستخدام معادلة IMDB

بيتم استخدام عدد الأصوات والتقييم المتوسط لكل فيلم والتقييم المتوسط العام لحساب التقييم الجديد WR

بيتم ترتيب الأفلام حسب التقييم الجديد وعرض أعلى 10 أفلام

بعد كده بيتم عرض أكثر 10 أفلام شعبية بناءً على عمود popularity باستخدام رسم بياني أفقي

بيتم تحويل تاريخ إصدار الفيلم إلى نوع datetime واستخراج السنة منه

بيتم حساب أكثر السنوات اللي تم فيها إصدار أفلام، وعرضهم في رسم بياني

في النهاية بيتم تحليل العلاقة بين ميزانية الفيلم والتقييم المرجّح

بيتم رسم Scatter Plot للعلاقة دي باستخدام مقياس لوجاريتمي للمحور الأفقي الخاص بالميزانية

وبيتم تفعيل الشبكة على الرسم البياني

الدفتر كله بيهدف لتحليل بيانات الأفلام من ناحية التقييم والشعبية والتواريخ والتصنيفات والميزانية باستخدام البايثون والرسوم البيانية

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة
المهارات