Meta与UCB联合开源Meta-SecAlign-70B,防御LLM提示词注入优于闭源方案
Meta 与加州大学伯克利分校联合发布首个具备工业级能力的开源安全大语言模型 Meta-SecAlign-70B,其在防御提示词注入攻击方面表现优于 GPT-4o 和 Gemini-2.5-flash 等闭源模型,同时具备强大的代理能力。研究团队提出 SecAlign++ 防御方法,通过输入分隔与偏好优化训练模型识别并忽略恶意注入指令。实验表明,该模型在 7 个基准测试中展现出更低的攻击成功率,且在仅 19K 数据微调后仍具良好泛化能力。Meta 已开源模型权重及代码,推动 AI 安全研究发展。来源:https://mp.weixin.qq.com/s/_ZbYUfbQh5dEaZJ1y4J89A
页:
[1]