1. 首页
  2. 数据库
  3. 其它
  4. RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习 源码

RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习 源码

上传者: 2021-02-22 07:35:22上传 ZIP文件 399.7KB 热度 14次
RLFromHumanPrefrences 通过通过人的偏好学习,从人的偏好中加强学习,以产生与环境奖励不符的行为。 工具。 要求 Python 3(它可能与Python 2兼容,但我没有对其进行测试) 为了安装要求,请遵循: # PyTorch conda install pytorch torchvision -c soumith # Baselines for Atari preprocessing git clone https://github.com/openai/baselines.git cd baselines pip install -e . # Other requi
下载地址
用户评论