1. 首页
  2. 数据库
  3. 其它
  4. MarkovDecisionProcesses:运行策略迭代值迭代和Q学习算法来解决MDP问题 源码

MarkovDecisionProcesses:运行策略迭代值迭代和Q学习算法来解决MDP问题 源码

上传者: 2021-03-08 05:56:05上传 ZIP文件 3.63MB 热度 38次
马尔可夫决策过程 概述 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以创建数据和图形文件: python run_experiment.py-全部 python run_experiment.py --plot 获得的结果 有关获得的结果的更多信息,请参考Analysis.pdf。 悬崖行走问题 问题 结果 冻湖网格问题 问题 结果
下载地址
用户评论