1. 首页
  2. 编程语言
  3. C
  4. ChatGPT:一种基于人类反馈强化学习的对话模型

ChatGPT:一种基于人类反馈强化学习的对话模型

上传者: 2023-08-02 14:54:27上传 PDF文件 1.49MB 热度 17次

ChatGPT是一种使用人类反馈强化学习(RLHF)进行训练的对话模型。它可以模拟对话,并具备回答后续问题、承认错误、挑战前提和拒绝不恰当请求的能力。OpenAI通过收集了比较数据来创建强化学习的奖励模型,其中包含按质量排序的两个或多个响应模型。为了提高生成文本的易读性,OpenAI聘请了人类训练师,在训练过程中,训练师扮演了用户和人工智能助手的角色。该模型是在Microsoft Azure的超算设施上进行训练的。

下载地址
用户评论