规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰

[复制链接]
周大 发表于 2025-9-27 14:30:50 | 显示全部楼层 |阅读模式
上海交大等国内外高校联合提出“规范对齐”新框架,旨在使大模型同时满足安全与行为规范。团队构建首个评测基准SpecBench,覆盖5类场景、103条规范及1500条数据,并引入SAR指标评估模型表现。测试显示多数模型对齐能力有限,GPT-5以82.14% SAR得分遥遥领先。研究还验证了测试时深思(TTD)方法的有效性,其中轻量级方法Align3在低计算成本下显著提升对齐效果,为动态多规环境下的大模型安全可控应用提供新路径。
来源:https://mp.weixin.qq.com/s/tw15KvvsQ5CEk9eSK9NcmA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-10 00:00 , Processed in 0.301390 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表