LLM安全性新突破 DeRTa提升大模型安全性

周大发表于 2024-7-30 16:03:31

港中文贺品嘉团队与腾讯AI Lab合作提出Decoupled Refusal Training (DeRTa)，一种新的安全微调方法，用于提高大型语言模型的安全性。该方法解决了安全微调数据中存在的拒绝位置偏差问题，使得模型能在任何位置拒绝有害回复，同时保持其有用性。实验显示，DeRTa能有效提升多种规模模型的安全性，为解决LLM安全问题提供了新思路。
来源：https://mp.weixin.qq.com/s/dSBHs-j80lNWYHVGIOlcZA

		自动登录	找回密码
密码			立即注册

课程导航

LLM安全性新突破 DeRTa提升大模型安全性