第十章_强化学习.pdf 上传者:天下萧然 2020-08-17 18:55:07上传 PDF文件 730.39KB 热度 26次 其他许多机器学习算法中学习器都是学得怎样做,而RL是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于: (1) 基本是以一种闭环的形式; (2) 不会直接指示选择哪种行动(actions); (3) 一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论