يعرض الملخص تصميم وتنفيذ نظام تفاعلي يعتمد على الذكاء الاصطناعي للتعرف على الكلام من خلال الصوت والصورة معاً، وتحويله إلى نص، بالإضافة إلى ترجمة لغة الإشارة إلى نص مكتوب والعكس. يعتمد النظام على تقنيات متقدمة مثل الشبكات العصبية العميقة، وتقنيات استخراج السمات البصرية والصوتية، ونماذج تحويل النص إلى حركات باستخدام مجسمات ثلاثية الأبعاد (Avatars).
يعتمد المشروع منهجية Agile/Scrum، ويركز على جمع وتحليل البيانات، واستخدام أدوات قياس الأداء مثل WER و CER، كما يهتم بالجوانب الأخلاقية مثل الخصوصية وتجربة المستخدم.
أهم مكونات النظام:
وحدة الإدخال متعددة الوسائط: تلتقط الصوت والصورة وتستخرج السمات منها.
محرك AVSR: يدمج السمات الصوتية والبصرية لتحويل الكلام إلى نص بدقة.
معالجة لغة الإشارة (SLP): تشمل التعرف على الإشارة وتحويل النص إلى إشارة باستخدام شخصية ثلاثية الأبعاد.
واجهة المستخدم ومدير الحوار: لإدارة التفاعل مع المستخدم وتوفير تجربة سهلة.