تحليل بيانات IMDb عبر واجهة رسومية تفاعلية

تفاصيل العمل

في هذا المشروع، قمت بتحليل بيانات الأفلام من موقع IMDb باستخدام تقنيات تنقيب الويب، معالجة البيانات، التصور البياني، ونماذج تعلم الآلة لاستخراج رؤى قيمة حول الأفلام.

الميزات والتقنيات الرئيسية

تنقيب الويب (Web Scraping) باستخدام Selenium & WebDriver:

استخراج بيانات الأفلام مثل: العنوان، السنة، المدة، التصنيف، التقييم، عدد الأصوات، المخرج، الأبطال، وغيرها.

التنقل التلقائي عبر الصفحات الديناميكية لاستخراج البيانات بكفاءة.

معالجة البيانات وتنظيفها (Data Preprocessing & Cleaning):

تحويل مدة الفيلم إلى دقائق، والتعامل مع القيم المفقودة، وتحويل البيانات الفئوية.

اكتشاف القيم الشاذة باستخدام مخططات الصندوق (Box Plots).

التصور البياني (Data Visualization):

مصفوفة الارتباط (Correlation Matrix) للكشف عن العلاقات بين المتغيرات.

المخططات الخطية (Line Plot) لرصد الاتجاهات عبر الزمن.

المخططات الدائرية (Pie Chart) لتوزيع الفئات المختلفة.

نظام التوصية (Recommendation System) باستخدام TF-IDF & Cosine Similarity:

استخدام التجميع المتجهي والتشابه لاقتراح أفلام بناءً على المخرج، الأبطال، والتقييمات.

تطبيق التشابه الموزون لتحسين دقة التوصيات.

نماذج تعلم الآلة (Machine Learning Models):

التجميع (Clustering) باستخدام KMeans + طريقة Elbow: لتصنيف الأفلام إلى مجموعات لتقديم توصيات شخصية.

الانحدار الخطي (Linear Regression): للتنبؤ بتقييم IMDb باستخدام ميزات عددية مثل مدة الفيلم، عدد الأصوات، وMetascore.

الغابة العشوائية (Random Forest Regressor) لتحسين دقة التنبؤات.

تكامل مع MongoDB:

تنفيذ نظام إدارة قاعدة بيانات الأفلام لحفظ واسترجاع البيانات بكفاءة.

فرز الأفلام وواجهة تفاعلية (Sorting & GUI) باستخدام Tkinter:

إنشاء أداة تفاعلية تسمح للمستخدمين بفرز الأفلام ديناميكيًا حسب معايير متعددة.

هذا المشروع يعكس قدرتي على جمع البيانات، تحليلها، واستخراج رؤى مفيدة باستخدام أحدث التقنيات في مجال علوم البيانات.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
79
تاريخ الإضافة
تاريخ الإنجاز
المهارات