1. 首页
  2. 编程语言
  3. C
  4. OpenAI的超级对话模型ChatGPT如何优化答案输出?

OpenAI的超级对话模型ChatGPT如何优化答案输出?

上传者: 2023-05-09 12:56:50上传 ZIP文件 10.97KB 热度 23次

ChatGPT是基于GPT3进行finetune操作得到的新模型,为了解决GPT3输出有毒或不可信的回答,采用了reinforcement learning from human feedback (RLHF)方法。具体实现过程为:获取大量的demonstration data,finetune GPT3,让人评分并学习打分模型,再利用增强学习优化模型。研究结果表明,相较于GPT3,InstructGPT的输出更受标注人员欢迎。通过RLHF方法,ChatGPT可以更好地优化答案输出。

下载地址
用户评论