连续空间增量最近邻时域差分学习 上传者:hackerdll 2021-01-16 02:14:40上传 PDF文件 345.7KB 热度 35次 针对连续空间强化学习问题, 提出一种基于局部加权学习的增量最近邻时域差分(TD) 学习框架. 通过增量方式在线选取部分已观测状态构建实例词典, 采用新观测状态的范围最近邻实例逼近其值函数与策略, 并结合TD 算法对词典中各实例的值函数和资格迹迭代更新. 就框架各主要组成部分给出多种设计方案, 并对其收敛性进行理论分析. 对24 种方案组合进行仿真验证的实验结果表明, SNDN组合具有较好的学习性能和计算效率. 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论