تطوير وكيل ذكاء اصطناعي (AI Agent) لبيئات الألعاب المعقدة باستخدام PPO

تفاصيل العمل

يهدف هذا المشروع إلى تطبيق خوارزميات تعلم التعزيز (Reinforcement Learning) لتطوير وكيل ذكي قادر على اتخاذ القرارات في بيئات ديناميكية. استخدمت خوارزمية Proximal Policy Optimization (PPO) لتدريب الوكيل في بيئة Flappy Bird و Riverraid. تم تدريب النموذج لأكثر من 2,000,000 خطوة زمنية (Timesteps) حتى وصل إلى مرحلة الاستقرار وتحقيق أعلى مكافأة ممكنة. يتضمن المشروع التعامل مع مكتبات Gymnasium و Stable Baselines3.

بطاقة العمل

اسم المستقل
عدد الإعجابات
0
عدد المشاهدات
1
تاريخ الإضافة
تاريخ الإنجاز
المهارات