上海AI Lab与上交大提出TELLME方法:通过表征解耦提升大模型内在透明度与安全性

[复制链接]
周大 发表于 昨天 15:08 | 显示全部楼层 |阅读模式
针对大语言模型能力提升带来的潜在风险问题,上海人工智能实验室与上海交通大学联合提出了一种名为TELLME的创新方法。该方法通过“表征解耦”技术直接提升模型内部透明度,摒弃了传统复杂的外部“黑盒”监控模块。实验表明,TELLME不仅显著提高了模型监控的可靠性和准确性(监控准确率提升22.3%),还意外增强了模型输出的安全性(安全性提升7.5%)。此外,该方法具备强大的扩展性,适用于超大模型和视觉语言模型,并通过理论支撑证明了其有效性。TELLME为未来超级智能的“可扩展监督”提供了新的思路,标志着AI安全领域的重要突破。
来源:https://mp.weixin.qq.com/s/j8MwP3KV2Qqa_czrh-qzBA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-24 01:26 , Processed in 0.257169 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表