Vision-Language (VL) Model

تفاصيل العمل

وصف مشروع: نظام سؤال وجواب بالصور باستخدام نموذج BLIP-2

هذا المشروع يتيح للمستخدم رفع صورة وطرح أسئلة باللغة الإنجليزية لفهم محتوى الصورة، ويعتمد على نموذج BLIP-2 (Bootstrapping Language-Image Pretraining) من شركة Salesforce، وهو نموذج قوي يستخدم في مجال الرؤية الحاسوبية + اللغة الطبيعية (Vision-Language).

الواجهة التفاعلية:

زر رفع الصور: يسمح برفع صورة واحدة فقط.

حقل إدخال السؤال: يتيح للمستخدم كتابة سؤاله عن محتوى الصورة.

زر الإرسال: يُرسل الصورة والسؤال إلى النموذج ويعرض الإجابة.

مساحة إخراج النتائج: تُعرض بها الإجابة ومعاينة الصورة.

مميزات المشروع:

تفاعل مباشر وسهل الاستخدام في Google Colab.

يدعم الأسئلة المفتوحة أو العدّ الكمي.

يعمل على أجهزة بدون GPU أيضًا (باستخدام CPU).

يوفر دقة جيدة في فهم الصور عبر نموذج BLIP-2 المدرب على بيانات متعددة الوسائط.

معاينة

بطاقة العمل

اسم المستقل

Ahmed E.

عدد الإعجابات

تاريخ الإضافة

13/01/2025

تاريخ الإنجاز

20/11/2024

المهارات

Vision-Language (VL) Model

تفاصيل العمل

بطاقة العمل

روابط

تابع مستقل على

وسائل الدفع المتاحة