SMDP 基于Actor网络的统一NDP方法 上传者:hiter_no 2021-02-21 23:22:42上传 PDF文件 401.13KB 热度 18次 研究半马尔可夫决策过程(SMDP )基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP 的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估.利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性. 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论