مشروع تحليل بيانات معمق يعتمد على قاعدة بيانات SQLite ضخمة تضم أكثر من 25,000 مباراة و10,000 لاعب من الدوريات الأوروبية الكبرى. الهدف من المشروع هو استخراج إحصائيات دقيقة حول أداء اللاعبين، الدوريات الأكثر تسجيلاً للأهداف، وتحليل العوامل المؤثرة في نتائج المباريات.
ما قمت به في هذا المشروع:
هيكلة الاستعلامات المعقدة: استخدمت لغة SQL لإجراء عمليات ربط (Joins) متعددة بين جداول اللاعبين، الفرق، والمباريات لاستخراج بيانات دقيقة.
تحليل استمرارية اللاعبين: قمت بحساب عدد المباريات التي لعبها كل لاعب عبر مواسم متعددة لتحديد اللاعبين الأكثر مشاركة واستدامة في الأداء.
مقارنة الدوريات: حللت معدلات التهديف في الدوريات المختلفة (الإنجليزي، الإسباني، الألماني، إلخ) لتحديد الأنماط الهجومية لكل دوري.
تنظيف ومعالجة البيانات: استخدمت Python و Pandas للتعامل مع القيم المفقودة وتحويل البيانات الخام إلى جداول قابلة للتحليل البصري.
المهارات والتقنيات المستخدمة:
قواعد البيانات: SQLite (لإدارة ومعالجة البيانات الضخمة).
لغات البرمجة: Python.
المكتبات التقنية: Pandas (للمعالجة)، Matplotlib (للتمثيل البصري)، NumPy.
التحليل الإحصائي: حساب المتوسطات، التكرارات، والارتباطات بين متغيرات المباراة.
أبرز النتائج (Insights):
تصنيف اللاعبين: تحديد قائمة الـ 10 لاعبين الأكثر مشاركة في المباريات (مثل Steve Mandanda و Felipe) بناءً على بيانات المواسم المتاحة.
تحليل الملاعب: دراسة تأثير عامل "الأرض والجمهور" من خلال مقارنة نتائج الفرق في مبارياتها داخل وخارج ملعبه.
تطور الأداء: رصد تطور مهارات اللاعبين (التقييم العام) عبر السنوات من خلال جدول صفات اللاعبين.