增量式双自然策略梯度的行动者评论家算法

上传者：x18478 2021-01-17 02:08:56上传 PDF文件 1.23MB 热度 29次

针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定

下载地址

用户评论

更多下载

下载地址

立即下载

用户评论

增量式双自然策略梯度的行动者评论家算法

针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然...

大小：1.23MB | 2021-01-17 02:08:56
论文研究一种基于高斯过程的行动者评论家算法.pdf

强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题，应用函数近似与高斯...

大小：1.48MB | 2020-07-20 01:46:36
论文研究连续空间的递归最小二乘行动者评论家算法.pdf

传统的行动者—评论家（actor-critic，AC）算法用在连续空间时，数据利用率低、收敛慢，而现...

大小：1.2MB | 2020-07-21 04:34:12
一种用于连续动作空间的最小二乘行动者评论家方法

解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算...

大小：2.12MB | 2021-03-25 03:32:50
SAC软演员评论家的实施源码

软演员评论家(SAC) Descllione dell'algoritmo 软演员评论家深度强化学习...

大小：1.10MB | 2021-04-08 19:20:34
论文研究全增量式自然梯度ActorCritic学习算法.pdf

全增量式自然梯度Actor-Critic学习算法，冯涣婷，程玉虎，尽管策略梯度强化学习算法具有较好的...

大小：0B | 2019-09-10 08:46:18
通知Udacity评论家Notifier for Udacity Reviewer crx插件

显示项目评审它每分钟检查一次Udacity Notifications API。显示项目以供审查...

大小：44KB | 2021-04-23 23:40:13
rl actor critic Deep RL模块化演员评论家源码

深度强化学习-分布式模块化框架一个模块化框架,可实现即插即用的RL思想实验。该系统是模块化的,具...

大小：4.63MB | 2021-03-08 07:58:55
盲信号分离自然梯度算法

Blind signal separation natural gradient algorithm...

大小：0B | 2019-06-21 21:57:56
增量式PID的算法

最近做一个压力控制的设备需要用到PID算法,在网上找到一个增量式PID算法,注释比较详细,通俗易懂,...

大小：53KB | 2020-08-29 20:34:39
PID增量式算法

PID增量式算法

大小：20KB | 2023-01-14 13:12:29
增量式PID算法

大小：0B | 2018-12-09 10:12:23
自然梯度算法用于盲源分离

大小：0B | 2019-01-10 00:30:07
自然梯度算法ica_ng.m

自然梯度算法-ica_ng.m 自然梯度算法的matlab仿真程序。输入五个信号然后进行混合再分离

大小：0B | 2020-05-31 04:55:42
21.策略梯度算法.zip

策略梯度算法（搭建网络、训练网络）,采用python语言代码实现

大小：4KB | 2020-07-23 19:57:42
PPO策略梯度算法文档

{"content": "使用强化学习中的PPO策略梯度算法，优化无人机的协调能力，实现高效目标搜索...

大小：5.64KB | 2025-01-20 14:33:35