强化学习笔记(4)无模型控制Model Free Control(On policy learning off policy learning GLIE Sar
文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ε−greedy\epsilon-greedyε−greedyGLIE定理:GLIE Monte-Carlo Control定理TD ControlSarsa算法描述定理缺点:Sarsa(λ)Sarsa(\lambda)Sarsa(λ)n-step Sarsan-step Q-return (n步Q收获)定义n-step Sarsa 通
下载地址
用户评论