规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰

周大发表于 2025-9-27 14:30:50

上海交大等国内外高校联合提出“规范对齐”新框架，旨在使大模型同时满足安全与行为规范。团队构建首个评测基准SpecBench，覆盖5类场景、103条规范及1500条数据，并引入SAR指标评估模型表现。测试显示多数模型对齐能力有限，GPT-5以82.14% SAR得分遥遥领先。研究还验证了测试时深思（TTD）方法的有效性，其中轻量级方法Align3在低计算成本下显著提升对齐效果，为动态多规环境下的大模型安全可控应用提供新路径。
来源：https://mp.weixin.qq.com/s/tw15KvvsQ5CEk9eSK9NcmA

		自动登录	找回密码
密码			立即注册

课程导航

规范对齐时代：GPT-5 断层领先，让安全与行为边界更明晰