تفاصيل العمل

يهدف هذا المشروع إلى تطوير نظام متقدم للتعرف على الكلام باللغة العربية باستخدام تقنيات التعلم العميق. يشمل العمل استخراج بيانات صوتية من يوتيوب، تحويلها إلى نص، معالجتها، ثم تدريب نموذج للتعرف على الكلام. يعتمد النظام على نموذج Wave2Vec لاستخراج الميزات، ويستخدم بنية تعتمد على الشبكات العصبية التلافيفية (CNN) لتحويل الصوت إلى نص، مع التركيز على اللهجة المصرية ودعم لهجات عربية أخرى.

المراحل الرئيسية:

جمع البيانات: استخراج مقاطع صوتية متنوعة من يوتيوب تشمل مختلف اللهجات والفئات الصوتية (ذكور وإناث).

المعالجة المسبقة: إزالة الضوضاء، تقسيم الكلام، وتوحيد تنسيق الملفات الصوتية.

استخراج الميزات: استخدام Wave2Vec لاستخراج التمثيلات الصوتية وفهم الأنماط اللغوية.

تدريب النموذج: تطبيق بنية Tacotron لتحويل الكلام إلى نص بدقة عالية.

تقييم الأداء: قياس دقة النموذج باستخدام معدل الخطأ في الكلمات (WER) ومعايير أخرى.

حقق النظام دقة تصل إلى 89-90% في التحقق، مع أداء قوي في اللهجة المصرية، لكنه يواجه بعض التحديات مع الفروقات الدقيقة بين اللهجات. تشمل التحسينات المستقبلية توسيع دعم اللهجات، تحسين التعرف على الكلام في البيئات الصاخبة، وإمكانية التكامل مع أنظمة الترجمة الفورية. يبرز المشروع قوة التعلم العميق في التعرف على الكلام باللغة العربية، مما يعزز إمكانية الوصول إلى تقنيات الذكاء الاصطناعي للمتحدثين بالعربية.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
تاريخ الإضافة
تاريخ الإنجاز
المهارات