تفاصيل العمل

بنيت موديل End-to-End يقدر يستقبل صورة ويولّد Caption وصفي بدقة باستخدام دمج بين Computer Vision و NLP.

اشتغلت على Dataset بحجم يقارب 1GB صور + 100MB بيانات نصية، وده كان تحدي في حد ذاته.

Feature Extraction باستخدام VGG16 (Transfer Learning)

Sequence Modeling باستخدام LSTM

Text Tokenization & Padding

Custom Data Generator لتحسين استهلاك الذاكرة

معالجة Overfitting باستخدام Dropout

مقارنة Baseline vs Final Model

تقييم الأداء باستخدام:

BLEU-1/2/3/4 – METEOR – ROUGE-L

المشروع بيعكس تجربة عملية كاملة في:

Model Design – Optimization – Debugging – Performance Evaluation – Cloud GPU Utilization.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة