استخراج الميزات (CNN): يتم استخدام الشبكة العصبونية المغلّفة بالتصفية لاستخراج الميزات المعنوية من الصورة الداخلية. تُعتبر الشبكات العصبونية المغلّفة بالتصفية مناسبة لمهام التعرف على الصور ويمكنها تعلّم التمثيلات الهرمية للميزات داخل الصور.
تكوين التسلسل (LSTM): يتم استخدام شبكة الذاكرة الطويلة القصيرة لتوليد تسلسلات الكلمات. تعمل شبكات LSTM على تعلّم التبعيات طويلة الأمد في البيانات التتابعية وغالباً ما تُستخدم في مهام معالجة اللغة الطبيعية مثل توليد اللغة.
التدريب: يتم تدريب النموذج على مجموعة بيانات تحتوي على أزواج من الصور والوصف المقابل لها. خلال التدريب، تستخرج CNN الميزات من الصور، ومن ثم يتم إدخال هذه الميزات إلى LSTM إلى جانب علامة البداية. تولّد LSTM الكلمات بتسلسل حتى تُنتج كلمةً بناءً على الكلمات السابقة التي تم توليدها وميزات الصور.
توليد الوصف: بمجرد أن يتم تدريب النموذج، يمكن استخدامه لتوليد وصف للصور الجديدة. يتضمن العملية تمرير الصورة عبر CNN لاستخراج الميزات ثم إدخال هذه الميزات إلى LSTM لتوليد تسلسل من الكلمات حتى تتم توقع علامة النهاية أو تصل إلى الحد الأقصى لطول التسلسل.