1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 优化深度确定性策略梯度算法.pdf

论文研究 优化深度确定性策略梯度算法.pdf

上传者: 2020-07-17 18:26:45上传 PDF文件 874.07KB 热度 27次
深度强化学习善于解决控制的优化问题,连续动作的控制因为精度的要求,动作的数量随着动作维度的增加呈指数型增长,难以用离散的动作来表示。基于Actor-Critic框架的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法虽然解决了连续动作控制问题,但是仍然存在采样方式缺乏科学理论指导、动作维度较高时的最优动作与非最优动作之间差距被忽视等问题。针对上述问题,提出一种基于DDPG算法的优化采样及精确评价的改进算法,并成功应用于选择顺应性装配机器臂(Selective Compliance Assembly Robot Arm,SCARA)的仿真环境
下载地址
用户评论