تدريب وكيل ذكي (RL Agent) لتطويق بقع الزيت باستخدام خوارزمية TD3

تفاصيل العمل

مشروع بحثي متقدم يهدف إلى تطوير نظام تحكم ذاتي لمركبة سطحية (USV) للقيام بمهمة المراقبة والتطويق لبقع الزيت في المحيطات.

أهم الإنجازات التقنية:

تصميم بيئة مخصصة (Custom Gym Env): بناء بيئة محاكاة برمجية تحاكي ديناميكيات حركة المركبة البحرية والعوامل البيئية المحيطة.

تطبيق التعلم المعزز العميق (Deep Reinforcement Learning): استخدام خوارزمية TD3 لتدريب المركبة على اتخاذ قرارات الملاحة المثلى (السرعة والتوجيه) في فضاء أفعال مستمر.

هندسة المكافآت (Reward Engineering): ابتكار دالة مكافأة تشجع المركبة على إتمام "مدار كامل" (Orbiting) حول الهدف مع الحفاظ على مسافة أمان ثابتة لتقليل الخطأ (Mean Error).

تحليل النتائج: استخراج وتحليل بيانات المسارات (Trajectories) والزوايا المحققة لتقييم أداء النموذج وتطوره خلال مراحل التدريب.

التقنيات المستخدمة:

Python, PyTorch, Stable Baselines3, Gymnasium.

Matplotlib (لتمثيل المسارات بصرياً)، Numpy

ملفات مرفقة

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
3
تاريخ الإضافة