蒙特卡洛算法.docx
动态规划方法计算状态处的值函数时利用了模型P_(ss^,)^a而在无模型强化学习中,模型P_(ss^,)^a是未知的。无模型的强化学习算法要想利用策略评估和策略改善的框架,必须采用其他的方法对当前策略进行评估(计算值函数)。
下载地址
用户评论