ملخص بحث Audio-Visual Speech Recognition and Sign Language Processing Using Artificial Intelligence

تفاصيل العمل

يعرض الملخص تصميم وتنفيذ نظام تفاعلي يعتمد على الذكاء الاصطناعي للتعرف على الكلام من خلال الصوت والصورة معاً، وتحويله إلى نص، بالإضافة إلى ترجمة لغة الإشارة إلى نص مكتوب والعكس. يعتمد النظام على تقنيات متقدمة مثل الشبكات العصبية العميقة، وتقنيات استخراج السمات البصرية والصوتية، ونماذج تحويل النص إلى حركات باستخدام مجسمات ثلاثية الأبعاد (Avatars).

يعتمد المشروع منهجية Agile/Scrum، ويركز على جمع وتحليل البيانات، واستخدام أدوات قياس الأداء مثل WER و CER، كما يهتم بالجوانب الأخلاقية مثل الخصوصية وتجربة المستخدم.

أهم مكونات النظام:

وحدة الإدخال متعددة الوسائط: تلتقط الصوت والصورة وتستخرج السمات منها.

محرك AVSR: يدمج السمات الصوتية والبصرية لتحويل الكلام إلى نص بدقة.

معالجة لغة الإشارة (SLP): تشمل التعرف على الإشارة وتحويل النص إلى إشارة باستخدام شخصية ثلاثية الأبعاد.

واجهة المستخدم ومدير الحوار: لإدارة التفاعل مع المستخدم وتوفير تجربة سهلة.

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
4
تاريخ الإضافة
تاريخ الإنجاز
المهارات