1. 首页
  2. 人工智能
  3. 机器学习
  4. 蒙特卡洛算法.docx

蒙特卡洛算法.docx

上传者: 2021-04-26 11:11:45上传 DOCX文件 624.9KB 热度 17次
动态规划方法计算状态处的值函数时利用了模型P_(ss^,)^a而在无模型强化学习中,模型P_(ss^,)^a是未知的。无模型的强化学习算法要想利用策略评估和策略改善的框架,必须采用其他的方法对当前策略进行评估(计算值函数)。
下载地址
用户评论