بنيت موديل End-to-End يقدر يستقبل صورة ويولّد Caption وصفي بدقة باستخدام دمج بين Computer Vision و NLP.
اشتغلت على Dataset بحجم يقارب 1GB صور + 100MB بيانات نصية، وده كان تحدي في حد ذاته.
Feature Extraction باستخدام VGG16 (Transfer Learning)
Sequence Modeling باستخدام LSTM
Text Tokenization & Padding
Custom Data Generator لتحسين استهلاك الذاكرة
معالجة Overfitting باستخدام Dropout
مقارنة Baseline vs Final Model
تقييم الأداء باستخدام:
BLEU-1/2/3/4 – METEOR – ROUGE-L
المشروع بيعكس تجربة عملية كاملة في:
Model Design – Optimization – Debugging – Performance Evaluation – Cloud GPU Utilization.