LLM安全性新突破 DeRTa提升大模型安全性
港中文贺品嘉团队与腾讯AI Lab合作提出Decoupled Refusal Training (DeRTa),一种新的安全微调方法,用于提高大型语言模型的安全性。该方法解决了安全微调数据中存在的拒绝位置偏差问题,使得模型能在任何位置拒绝有害回复,同时保持其有用性。实验显示,DeRTa能有效提升多种规模模型的安全性,为解决LLM安全问题提供了新思路。来源:https://mp.weixin.qq.com/s/dSBHs-j80lNWYHVGIOlcZA
页:
[1]