المشروع هو نظام أجابة على الاسئلة مفتوح المجال بالكتاب المفتوح حيث أن التوليد القائم على المعرفة المضافة او باصطلاح علمي التوليد المدعم بالاسترجاع Retriever Augmented Generation (RAG)
جرى بناء هذا المشروع باستخدام قواعد بيانات PostgreSQL مع اضافة PGvector لحفظ المتجهات الكثيفة للنصوص المساعدة المولدة باستخدام نماذج لغوية SentenceBERT غير متناظرة وبالتالي يمكن الاستعلام عن النصوص المساعدة للسؤال المطروح التي يمكن توليد الاجابة منها لإستخدامها لاحقاً لعملية توليد الاجابة
استخدمنا نموذج متحول قائم على BART لتوليد الاجابة مضبوط بدقة على مجموعة بيانات LFQA ويمكن ضبط هذا النموذج بشكل اضافي على اية مجموعة بيانات صغيرة تشابه مجموعة LFQA من ناحية بنية البيانات.
المشروع يحوي ايضاً على ادوات لاستيراد النصوص من صفحات الويب وملفات PDF و لتجهيز النصوص المساعدة كنوافذ معالجة النصوص وتقسيم هذه النصوص الى فقرات قصيرة من 4 الى 5 أسطر باستخدام مكتبات مثل Stanza و LangChain وتوليد المتجهات الكثيفة لها وترجمتها الى اللغة الانكليزية