1. 首页
  2. 人工智能
  3. 深度学习
  4. 多轮红队检测提升大语言模型安全

多轮红队检测提升大语言模型安全

上传者: 2024-12-29 19:36:00上传 PDF文件 528.23KB 热度 9次

多轮自动红队方法(MART)通过迭代生成对抗性提示和安全响应来提升大型语言模型(LLMs)的安全性。MART的核心是在每次迭代中生成挑战性提示,利用安全对齐数据对目标模型进行细调,从而减少模型生成不安全响应的风险。在4轮迭代后,MART显著降低了LLM的违规率,最高可达84.7%,且不影响模型在非对抗性提示下的性能。

该方法适用于需要提升大语言模型安全性的场景,如在线对话系统和虚拟助手等,主要目标是在保证模型功能性的同时,显著降低有害内容的生成风险。尽管MART在多轮迭代中表现优异,但进一步提升安全性仍需要结合人工红队和更多数据支持。实验结果表明,数据量和方法的不同对模型性能有显著影响。

下载地址
用户评论