هذا المشروع هو تحليل بيانات متقدم وتطبيق عملي في مجال تحليل وتنبؤ نتائج مباريات كرة القدم باستخدام بيانات من الدوريات الأوروبية الخمسة الكبرى (Premier League، La Liga، Bundesliga، Serie A، Ligue 1).
في المشروع قمت بـ:
? جمع وتنظيف ودمج أكثر من 7 مجموعات بيانات للمباريات، الفرق واللاعبين.
? استخراج مؤشرات أداء رئيسية (KPIs) مثل ترتيب الفوز، الأهداف، الاتجاهات عبر المواسم.
? بناء نماذج تعلم آلي لتنبؤ نتيجة المباراة (فوز – تعادل – خسارة).
? تصور النتائج وتحليلها بصريًا عبر عدة dashboards ورسوم بيانية واضحة.
تم استخدام أدوات قوية مثل Python (pandas, matplotlib, seaborn, scikit-learn) لتقديم تحليل احترافي قابل للتطبيق في الأعمال الرياضية وعلوم البيانات.
النتائج والتحليلات الرئيسية للمشروع:
أظهر التحليل الاستكشافي للبيانات (EDA) أن عامل الأرض (Home Advantage) له تأثير مباشر على نتيجة المباراة، حيث ترتفع احتمالية الفوز بشكل ملحوظ عند اللعب على الأرض مقارنة بالمباريات خارج الديار.
تم تحديد أن عدد الأهداف المسجلة والمتوقعة (Goals & Goal Difference) من أقوى العوامل المؤثرة في التنبؤ بنتيجة المباراة، متفوقًا على عوامل أخرى مثل عدد المباريات السابقة أو ترتيب الموسم فقط.
كشفت البيانات أن الفرق الكبرى في الدوريات الخمسة تحافظ على استقرار أدائي واضح عبر المواسم، مما يجعل نتائجها أكثر قابلية للتنبؤ مقارنة بفرق منتصف الجدول.
عند تطبيق نماذج تعلم الآلة مثل:
Logistic Regression
Random Forest
حقق النموذج قدرة جيدة على التفرقة بين الفوز والخسارة والتعادل، مع تحسن ملحوظ في الأداء عند استخدام الخصائص المستخرجة من التحليل الإحصائي بدلًا من البيانات الخام فقط.
أوضحت النتائج أن دمج التحليل الإحصائي مع التعلم الآلي يعطي نتائج أدق وأكثر واقعية مقارنة بالاعتماد على نموذج تنبؤي تقليدي بدون Feature Engineering.