1. 首页
  2. 数据库
  3. 其它
  4. udacity deeprl p1 源码

udacity deeprl p1 源码

上传者: 2021-02-23 14:02:25上传 ZIP文件 6.7MB 热度 17次
Udacity深度强化学习项目1:导航 项目详情 此存储库中的代码与的修改版本进行交互 在这种环境下,代理商的目标是收集尽可能多的黄色香蕉,同时避开蓝色香蕉。 对于收集的每个黄色香蕉,代理收到+1的奖励,对于收集的每个蓝色香蕉则收到-1的奖励。 为了实现此目标,代理具有四个离散的动作,分别对应于“向左转”,“向右转”,“向后移动”和“什么都不做”。 状态信息作为长度为37的向量提供给代理; 此状态信息包含速度和有关代理可以“看到”的对象的信息。 当代理程序收到100个事件窗口的平均分数至少为+13时,就认为该环境已“解决”。 我的解决方案 为了解决环境,我在Deep Q Networks上
下载地址
用户评论