60%情况下，主流大模型没理解风险只是装懂！淘天团队推新Benchmark研究

周大发表于 2025-6-10 14:29:35

淘天集团未来实验室研究发现，主流推理模型虽能生成安全回复，但超60%的案例未真正理解风险，存在“表面安全对齐”（SSA）漏洞。为此，团队推出全球首个Benchmark——BSA，涵盖挑战性数据集与详细风险注释。研究表明，模型参数量增加可提升性能，但规则依赖易导致“过度敏感”。此外，调整采样参数对安全性影响有限，模型核心能力仍需优化训练与对齐方式实现突破。
来源：https://mp.weixin.qq.com/s/Dhs7MTyQQO3LBhobsp3ohQ

页: [1]

靠浦ai课堂's Archiver

60%情况下，主流大模型没理解风险只是装懂！淘天团队推新Benchmark研究