MarkovDecisionProcesses:运行策略迭代值迭代和Q学习算法来解决MDP问题 源码 上传者:attract7539 2021-03-08 05:56:05上传 ZIP文件 3.63MB 热度 38次 马尔可夫决策过程 概述 该存储库运行3种强化算法:策略迭代,值迭代和Q学习,以解决2个MDP问题:悬崖行走和20X20冻湖网格,并比较它们的性能。 运行步骤 需要Python 3.6 使用pip从Requirements.txt安装需求 使用python 3运行以下命令以创建数据和图形文件: python run_experiment.py-全部 python run_experiment.py --plot 获得的结果 有关获得的结果的更多信息,请参考Analysis.pdf。 悬崖行走问题 问题 结果 冻湖网格问题 问题 结果 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论 attract7539 资源:952 粉丝:0 +关注 上传资源 免责说明 本站只是提供一个交换下载平台,下载的内容为本站的会员网络搜集上传分享交流使用,有完整的也有可能只有一分部,相关内容的使用请自行研究,主要是提供下载学习交流使用,一般不免费提供其它各种相关服务! 本站内容泄及的知识面非常广,请自行学习掌握,尽量自已动脑动手解决问题,实践是提高本领的途径,下载内容不代表本站的观点或立场!如本站不慎侵犯你的权益请联系我们,我们将马上处理撤下所有相关内容!联系邮箱:server@dude6.com