Meta与UCB联合开源Meta-SecAlign-70B,防御LLM提示词注入优于闭源方案

[复制链接]
周大 发表于 昨天 14:34 | 显示全部楼层 |阅读模式
Meta 与加州大学伯克利分校联合发布首个具备工业级能力的开源安全大语言模型 Meta-SecAlign-70B,其在防御提示词注入攻击方面表现优于 GPT-4o 和 Gemini-2.5-flash 等闭源模型,同时具备强大的代理能力。研究团队提出 SecAlign++ 防御方法,通过输入分隔与偏好优化训练模型识别并忽略恶意注入指令。实验表明,该模型在 7 个基准测试中展现出更低的攻击成功率,且在仅 19K 数据微调后仍具良好泛化能力。Meta 已开源模型权重及代码,推动 AI 安全研究发展。
来源:https://mp.weixin.qq.com/s/_ZbYUfbQh5dEaZJ1y4J89A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-31 20:40 , Processed in 0.275083 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表