تفاصيل العمل

وصف مشروع: نظام سؤال وجواب بالصور باستخدام نموذج BLIP-2

هذا المشروع يتيح للمستخدم رفع صورة وطرح أسئلة باللغة الإنجليزية لفهم محتوى الصورة، ويعتمد على نموذج BLIP-2 (Bootstrapping Language-Image Pretraining) من شركة Salesforce، وهو نموذج قوي يستخدم في مجال الرؤية الحاسوبية + اللغة الطبيعية (Vision-Language).

الواجهة التفاعلية:

زر رفع الصور: يسمح برفع صورة واحدة فقط.

حقل إدخال السؤال: يتيح للمستخدم كتابة سؤاله عن محتوى الصورة.

زر الإرسال: يُرسل الصورة والسؤال إلى النموذج ويعرض الإجابة.

مساحة إخراج النتائج: تُعرض بها الإجابة ومعاينة الصورة.

مميزات المشروع:

تفاعل مباشر وسهل الاستخدام في Google Colab.

يدعم الأسئلة المفتوحة أو العدّ الكمي.

يعمل على أجهزة بدون GPU أيضًا (باستخدام CPU).

يوفر دقة جيدة في فهم الصور عبر نموذج BLIP-2 المدرب على بيانات متعددة الوسائط.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
تاريخ الإضافة
تاريخ الإنجاز
المهارات