يهدف هذا المشروع إلى تطبيق خوارزميات تعلم التعزيز (Reinforcement Learning) لتطوير وكيل ذكي قادر على اتخاذ القرارات في بيئات ديناميكية. استخدمت خوارزمية Proximal Policy Optimization (PPO) لتدريب الوكيل في بيئة Flappy Bird و Riverraid. تم تدريب النموذج لأكثر من 2,000,000 خطوة زمنية (Timesteps) حتى وصل إلى مرحلة الاستقرار وتحقيق أعلى مكافأة ممكنة. يتضمن المشروع التعامل مع مكتبات Gymnasium و Stable Baselines3.