tonic:补品RL库 源码
补品 欢迎使用Tonic RL库! 请查看以获取详细信息和结果。 主要设计原则是: 模块化:用于创建RL代理的构建块(例如模型,重播或探索策略)被实现为可配置模块。 可读性:代理使用相同的API以简单的方式编写,并且日志通过进度条很好地显示在终端上。 公平的比较:培训流程是唯一的,并且与所有Tonic代理和环境兼容。 代理人是由其核心思想定义的,而诸如,观察规范化和操作缩放之类的常规技巧/改进则可以共享。 基准测试:提供了在中受训的所提供代理的基准数据,用于直接比较。 包装的流行环境:使 , 和环境与和同步分布式培训兼容。 与不同的ML框架的兼容性:目前支持TensorFlow 2和PyTorch。 只需导入tonic.tensorflow或tonic.torch 。 在控制台上进行实验:虽然可以使用启动脚本,但是可以直接使用Python代码片段在控制台上迭代各种配置。
下载地址
用户评论