تفاصيل العمل

قمتُ ببناء نموذج Deep Learning متكامل (End-to-End) لتوليد أوتوماتيكي للتعليقات النصية على الصور (Automatic Image Captioning) من خلال دمج تقنيات Computer Vision و Natural Language Processing. استخدمت VGG16 لاستخراج الخصائص البصرية من الصور، ونموذج لغوي مبني على LSTM لتوليد أوصاف نصية دقيقة. تم التدريب باستخدام Flickr8k Dataset مع تنفيذ خطوات Data Preprocessing، Tokenization، و Sequence Padding. نجح النموذج في توليد تعليقات نصية مرتبطة بالسياق وصحيحة نحويًا، مما أظهر قدراته في Multimodal Learning.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
1
تاريخ الإضافة
تاريخ الإنجاز
المهارات