توليد الصور من النص (Text to image generation T2I)

تفاصيل العمل

توليد الصور من النص (Text-to-image generation - T2I)، والذي ينطوي على تخليق صورة من وصف نصي، قد ظهر كموضوع بحث شائع في مجال رؤية الحاسوب. وفي الوقت نفسه، أظهرت النماذج القائمة على التحويلات، مثل BERT وGPT-2 وT5، نتائج واعدة في مختلف المهام المتعلقة بمعالجة اللغة الطبيعية، بما في ذلك توليد وترجمة النصوص. ومع ذلك، فإن تطبيق هذه النماذج على توليد الصور من النص لم يُستكشف بشكل كبير حتى الآن. لذلك، يكتسب الدراسة المقارنة لأداء BERT وGPT-2 وT5 في توليد الصور من النص أهمية كبيرة. تسلط هذه الدراسة الضوء على نقاط قوة وضعف كل نموذج، مما يسهل تحديد النهج الأكثر مناسبة لهذه المهمة.

في هذه الورقة، نقترح ثلاثة تصاميم لإجراء دراسة مقارنة بين T5 وGPT-2 وBERT في مهام توليد الصور من النص. نقوم بضبط دقيق لهذه النماذج لتوليد متجهات النص، ثم نحول المعلومات النصية إلى صور باستخدام التحويل الهندسي في مُولد DF-GAN. ومن ثم، نقوم بتقييم الجودة والتنوع، وقدرة النماذج على التعرف على الكلمات. تُظهر تجاربنا على مجموعات بيانات صعبة للغاية، مثل مجموعة الطيور CUB وOxford-102، أن T5 يظهر إمكانات واعدة في توليد الصور من النص. إنه يمتلك القدرة على إنتاج صور جذابة بصريًا وذات مغزى من الوصف النصي.

بطاقة العمل

اسم المستقل مراد ا.
عدد الإعجابات 0
عدد المشاهدات 14
تاريخ الإضافة

المهارات المستخدمة