يعتمد هذا المشروع على تطبيق مفاهيم التعلم الآلي الإحصائي والاحتمالات لتصنيف الأرقام المكتوبة بخط اليد (MNIST). قمت ببناء خوارزمية نموذج المزيج الغاوسي (Gaussian Mixture Model) بالكامل من الصفر باستخدام لغة Python ومكتبة NumPy، دون الاعتماد على مكتبات النماذج الجاهزة، لتصنيف البيانات بناءً على التوزيعات الاحتمالية.
أبرز المهام والخصائص التقنية التي تم تنفيذها:
برمجة الخوارزميات الإحصائية: البرمجة اليدوية لخوارزمية تعظيم التوقع (Expectation-Maximization Algorithm)، وتضمين خطوات (E-step) و (M-step) لحساب الاحتمالات اللوغاريتمية (Log-Likelihood) وتحديث الأوزان والمتوسطات ومصفوفات التغاير (Covariance Matrices).
تقليل الأبعاد (Dimensionality Reduction): معالجة البيانات ضخمة الأبعاد (784 ميزة) واستخدام تقنية تحليل المكونات الرئيسية (PCA) لضغطها إلى 64 ميزة فقط، مع الحفاظ على أهم الخصائص، مما أدى إلى تسريع العمليات الحسابية بشكل كبير.
استراتيجية التصنيف (One-vs-Rest): بناء نظام تصنيف يعتمد على تدريب 10 نماذج GMM مستقلة (نموذج لكل رقم من 0 إلى 9)، ثم إسناد الصورة للنموذج الذي يعطي أعلى درجة احتمالية (Score).
التقييم البصري المتقدم: تحليل أداء النموذج واختبار كفاءته من خلال رسم منحنيات خصائص تشغيل المستقبل (ROC Curves) وحساب المساحة تحت المنحنى (AUC) لكل فئة على حدة باستخدام مكتبة Matplotlib.