LLM安全性新突破 DeRTa提升大模型安全性

[复制链接]
周大 发表于 2024-7-30 16:03:31 | 显示全部楼层 |阅读模式
港中文贺品嘉团队与腾讯AI Lab合作提出Decoupled Refusal Training (DeRTa),一种新的安全微调方法,用于提高大型语言模型的安全性。该方法解决了安全微调数据中存在的拒绝位置偏差问题,使得模型能在任何位置拒绝有害回复,同时保持其有用性。实验显示,DeRTa能有效提升多种规模模型的安全性,为解决LLM安全问题提供了新思路。
来源:https://mp.weixin.qq.com/s/dSBHs-j80lNWYHVGIOlcZA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-19 01:22 , Processed in 0.278023 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表