1. 首页
  2. 数据库
  3. 其它
  4. mab:用于多武装匪徒选择策略的库包括汤普森采样和epsilon greedy的有效确定性实现 源码

mab:用于多武装匪徒选择策略的库包括汤普森采样和epsilon greedy的有效确定性实现 源码

上传者: 2021-03-23 12:36:32上传 ZIP文件 36.92KB 热度 13次
马布 多武装土匪去图书馆 描述 这是什么 Mab是用于可伸缩和可自定义的多臂匪的库/框架。 它提供了epsilon-greedy和Thompson采样策略的有效伪随机实现。 手臂选择策略与奖励模型脱钩,从而使Mab可以与任何奖励模型一起使用,该奖励模型的输出可以描述为每个手臂的后验分布或点估计。 Mab还提供了一个数字一维积分软件包numint ,该软件包开发供Mab Thompson采样器使用,但也可以用作数字积分的独立版本。 不是什么 Mab与建立,培训或更新强盗奖励模型无关。 给定奖励模型的输出,它专注于有效的伪随机手臂选择。 安装 go get -u github.com/stitchfix/mab 用法 土匪 Bandit包括三个部分: RewardSource , Strategy和Sampler 。 Mab提供了每一个的实现,但也建议您也实现自己的实现! 每个组件都由单方法
下载地址
用户评论