هذا المشروع يهدف إلى تحسين نموذج mBART لتطوير ترجمة دقيقة من الدارجة المغربية (Darija) إلى اللغة الإنجليزية. تم تنفيذ المشروع بخطوات دقيقة وشاملة باستخدام أدوات وتقنيات حديثة مثل مكتبة Hugging Face.
ملخص المشروع:
1. إعداد البيانات:
تم جمع ومعالجة بيانات الترجمة من الدارجة المغربية إلى الإنجليزية، مع التأكد من تقسيم البيانات إلى مجموعات للتدريب، التقييم، والاختبار.
2. تهيئة النموذج:
استخدمنا نموذج mBART المُدرب مسبقًا كنقطة انطلاق. تمت تهيئة المعلمات واختيار اللغات المستهدفة بما يتناسب مع الدارجة المغربية.
3. عملية التدريب:
- خلال 3 دورات تدريبية (Epochs)، انخفضت خسائر التدريب والتحقق تدريجيًا، بينما ارتفع أداء النموذج من حيث مقياس BLEU:
- الدورة الأولى: خسارة تدريب 0.1014، خسارة تحقق 0.1012، ومقياس BLEU بلغ 33.56.
- الدورة الثانية: خسارة تدريب 0.0819، خسارة تحقق 0.0827، ومقياس BLEU بلغ 39.69.
- الدورة الثالثة: خسارة تدريب 0.0566، خسارة تحقق 0.0753، ومقياس BLEU بلغ 42.10.
4. اختبار النموذج:
تم تقييم النموذج على مجموعة الاختبار، حيث حقق نتائج ممتازة بمقياس BLEU بلغ 41.21 وخسارة اختبار بلغت 0.0753.
5. رفع النموذج إلى Hugging Face Hub:
تم تحميل النموذج إلى المنصة لجعله متاحًا للجميع. يمكن للمستخدمين تحميل النموذج بسهولة باستخدام المكتبة واستعماله في تطبيقاتهم.
- اسم النموذج: `echarif/mBART_for_darija_translation`.
6. واجهة المستخدم:
لتسهيل استخدام النموذج، تم بناء تطبيق ويب بسيط باستخدام مكتبة Streamlit، حيث يمكن للمستخدمين إدخال نصوص بالدارجة المغربية والحصول على ترجمتها إلى الإنجليزية في الوقت الفعلي.
7. نشر التطبيق على Hugging Face Spaces:
التطبيق متاح الآن على Hugging Face Spaces، مما يتيح الوصول العام للمستخدمين لتجربة النموذج بسهولة.
أهمية المشروع:
- دعم اللغات منخفضة الموارد: هذا المشروع يفتح الباب لاستخدام تقنيات الترجمة الآلية لتحسين فهم وتواصل اللغات غير المدعومة بكثرة.
- التعاون والمشاركة: بفضل نشر النموذج على Hugging Face، يمكن للباحثين والمطورين التعاون لتحسينه أو استخدامه في مشاريع مشابهة.
هذا المشروع يمثل خطوة مهمة في تعزيز استخدام الذكاء الاصطناعي لدعم الترجمة الآلية للدارجة المغربية، مما يسهم في ربط الثقافات وتعزيز الفهم بين الشعوب.