وصف مشروع: نظام سؤال وجواب بالصور باستخدام نموذج BLIP-2
هذا المشروع يتيح للمستخدم رفع صورة وطرح أسئلة باللغة الإنجليزية لفهم محتوى الصورة، ويعتمد على نموذج BLIP-2 (Bootstrapping Language-Image Pretraining) من شركة Salesforce، وهو نموذج قوي يستخدم في مجال الرؤية الحاسوبية + اللغة الطبيعية (Vision-Language).
الواجهة التفاعلية:
زر رفع الصور: يسمح برفع صورة واحدة فقط.
حقل إدخال السؤال: يتيح للمستخدم كتابة سؤاله عن محتوى الصورة.
زر الإرسال: يُرسل الصورة والسؤال إلى النموذج ويعرض الإجابة.
مساحة إخراج النتائج: تُعرض بها الإجابة ومعاينة الصورة.
مميزات المشروع:
تفاعل مباشر وسهل الاستخدام في Google Colab.
يدعم الأسئلة المفتوحة أو العدّ الكمي.
يعمل على أجهزة بدون GPU أيضًا (باستخدام CPU).
يوفر دقة جيدة في فهم الصور عبر نموذج BLIP-2 المدرب على بيانات متعددة الوسائط.