قمت بتطوير Proof of Concept (POC) لنظام مساعد صوتي عربي يعمل بالذكاء الاصطناعي، حيث يقوم بتحويل الكلام إلى نص بدقة عالية ثم تحليل نية المستخدم والرد عليه بشكل تفاعلي باستخدام نماذج لغوية متقدمة.
يهدف هذا النموذج إلى إثبات إمكانية بناء أنظمة محادثة صوتية ذكية باللغة العربية يمكن استخدامها في تطبيقات مثل خدمة العملاء أو المساعدات الصوتية أو التجارة الإلكترونية.
يعتمد النظام حاليًا على نماذج لغوية مفتوحة المصدر ومجانية تعمل محليًا عبر Ollama، مما يسمح بتجربة النظام دون الحاجة إلى خدمات API مدفوعة.
ومع ذلك، يمكن تحسين جودة النتائج والأداء بشكل ملحوظ من خلال:
• Fine-tuning للنموذج على بيانات خاصة بالمجال أو باللغة العربية
• أو الانتقال إلى نماذج مدفوعة ذات أداء أعلى مثل نماذج GPT أو نماذج تجارية أخرى عند الحاجة إلى دقة وسرعة أعلى في بيئة الإنتاج.
⸻
التقنيات المستخدمة
• Whisper large-v2 لتحويل الصوت العربي إلى نص
• Ollama + LLaMA (Open Source LLM) لتحليل وفهم نية المستخدم
• Streamlit لبناء واجهة تفاعلية
• gTTS لإضافة الرد الصوتي
• Session Memory لإدارة سياق المحادثة
• Response Caching لتحسين الأداء
⸻
ما يقدمه هذا الـ POC
• تحويل الصوت العربي إلى نص بدقة عالية
• دعم عدة لهجات عربية (مثل المصرية والخليجية)
• تحليل نية المستخدم (شراء – استفسار – دعم)
• مساعد صوتي يتفاعل مع المستخدم في جلسة محادثة مستمرة
• الرد الصوتي على المستخدم
• حفظ سياق المحادثة حتى انتهاء الجلسة
• إمكانية إنهاء الجلسة وإعادة ضبط النظام
⸻
الهدف من هذا النموذج الأولي
إثبات إمكانية بناء نظام Voice AI عربي يمكن تطويره لاحقًا ليصبح:
• نظام خدمة عملاء صوتي
• مساعد ذكي للمتاجر الإلكترونية
• نظام تحليل مكالمات لمراكز الاتصال
• واجهات صوتية للتطبيقات الذكية
⸻
قابل للتطوير إلى
• نظام إنتاجي (Production System)
• تكامل مع قواعد بيانات المنتجات
• دعم مكالمات هاتفية حقيقية
• تحليلات متقدمة للمحادثات
• Fine-tuning للنموذج لتحسين فهم اللهجات العربية
• استخدام نماذج لغوية مدفوعة للحصول على دقة وأداء أعلى