1. 首页
  2. 数据库
  3. 其它
  4. DDPG连续控制 源码

DDPG连续控制 源码

上传者: 2021-02-27 10:43:09上传 ZIP文件 1.27MB 热度 19次
Unity带有RL的Reacher环境解决方案 介绍 该项目是用于解决Unity v0.4环境的深度确定性策略梯度强化学习算法的实现。 环境细节 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,代理的目标是将其在目标位置的位置保持尽可能多的时间步长。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 该环境由20个相同的代理组成,每个代理都有自己的环境副本。 要考虑解决此环境,特工必须获得+30的平
下载地址
用户评论