周大 发表于 4 小时前

上海AI Lab与上交大提出TELLME方法:通过表征解耦提升大模型内在透明度与安全性

针对大语言模型能力提升带来的潜在风险问题,上海人工智能实验室与上海交通大学联合提出了一种名为TELLME的创新方法。该方法通过“表征解耦”技术直接提升模型内部透明度,摒弃了传统复杂的外部“黑盒”监控模块。实验表明,TELLME不仅显著提高了模型监控的可靠性和准确性(监控准确率提升22.3%),还意外增强了模型输出的安全性(安全性提升7.5%)。此外,该方法具备强大的扩展性,适用于超大模型和视觉语言模型,并通过理论支撑证明了其有效性。TELLME为未来超级智能的“可扩展监督”提供了新的思路,标志着AI安全领域的重要突破。
来源:https://mp.weixin.qq.com/s/j8MwP3KV2Qqa_czrh-qzBA
页: [1]
查看完整版本: 上海AI Lab与上交大提出TELLME方法:通过表征解耦提升大模型内在透明度与安全性