周大 发表于 2025-6-10 14:29:35

60%情况下,主流大模型没理解风险只是装懂!淘天团队推新Benchmark研究

淘天集团未来实验室研究发现,主流推理模型虽能生成安全回复,但超60%的案例未真正理解风险,存在“表面安全对齐”(SSA)漏洞。为此,团队推出全球首个Benchmark——BSA,涵盖挑战性数据集与详细风险注释。研究表明,模型参数量增加可提升性能,但规则依赖易导致“过度敏感”。此外,调整采样参数对安全性影响有限,模型核心能力仍需优化训练与对齐方式实现突破。
来源:https://mp.weixin.qq.com/s/Dhs7MTyQQO3LBhobsp3ohQ
页: [1]
查看完整版本: 60%情况下,主流大模型没理解风险只是装懂!淘天团队推新Benchmark研究