المشروع عبارة عن نظام متكامل يعتمد على تقنيات التعلم الآلي لاستخراج البيانات، تحليلها، وصفها، وبناء نماذج للتنبؤ مع تقييم دقتها لتحقيق أفضل أداء ممكن. يتيح النظام للمستخدمين معالجة البيانات الخام، تطبيق خطوات التحليل الإحصائي والوصف التفصيلي، ثم تدريب واختبار عدة نماذج متقدمة لتحديد الأنسب بناءً على دقة النتائج.
الموديلات المطبقة داخل المشروع:
LGBMClassifier (مصطفى): نموذج قوي يعتمد على LightGBM لتسريع عملية التدريب مع دقة عالية في التنبؤ.
XGBClassifier (عبدو): نموذج يعتمد على XGBoost لتقديم نتائج متوازنة بين السرعة والدقة خاصة للبيانات الكبيرة والمعقدة.
CatBoost (محمود): نموذج فعال للتعامل مع البيانات التصنيفية وتقديم أداء متميز بدون الحاجة لتحويل البيانات يدويًا.
OneVsRestClassifier (منعم): لتطبيق استراتيجيات التصنيف المتعدد وتحسين أداء النماذج في المشكلات متعددة الفئات.
مراحل عمل النظام:
استخراج البيانات: قراءة وتجهيز البيانات من مصادر مختلفة.
التحليل والوصف: توليد إحصاءات وصفية ورسوم بيانية لفهم البيانات بشكل أعمق.
بناء النماذج: تدريب النماذج المذكورة أعلاه على البيانات المعالجة.
تقييم الأداء: حساب مقاييس الأداء مثل الدقة (Accuracy)، الاستدعاء (Recall)، والدقة الموزونة (F1-Score) لكل نموذج لاختيار الأفضل.
التقنيات المستخدمة:
Python ولغات البرمجة الإحصائية.
مكتبات مثل Scikit-learn، Pandas، NumPy، Matplotlib لتحليل البيانات وبناء النماذج.
LightGBM، XGBoost، CatBoost لتطبيق خوارزميات التعلم الآلي المتقدمة.
النظام مصمم ليكون مرنًا وقابلًا للتطوير لتطبيقه على مختلف أنواع البيانات والمجالات.