1. 首页
  2. 数据库
  3. 其它
  4. 一天就学会了自动驾驶——强化学习在自动驾驶的应用

一天就学会了自动驾驶——强化学习在自动驾驶的应用

上传者: 2021-02-01 17:32:58上传 PDF文件 411.06KB 热度 24次
强化学习是通过对未知环境一边探索一边建立环境模型以及学得一个最优策略。强化学习具有以下特征:没有监督数据,只有奖励(reward)信号;奖励信号不一定是实时的,而很可能是延后的,有时甚至延后很多;时间(序列)是一个重要因素;智能体当前的行为影响后续接收到的数据。而有监督学习则是事先给你了一批样本,并告诉你哪些样本是优的哪些是劣的(样本的标记信息),通过学习这些样本而建立起对象的模型及其策略。在强化学习中没有人事先告诉你在什么状态下应该做什么,只有在摸索中反思之前的动作是否正确来学习。从这个角度看,可以认为强化学习是有时间延迟标记信息的有监督学习。其他许多机器学习算法中学习器都是学得怎样做,而强
下载地址
用户评论