上海AI Lab与上交大提出TELLME方法：通过表征解耦提升大模型内在透明度与安全性

周大发表于 2025-6-23 15:08:40

针对大语言模型能力提升带来的潜在风险问题，上海人工智能实验室与上海交通大学联合提出了一种名为TELLME的创新方法。该方法通过“表征解耦”技术直接提升模型内部透明度，摒弃了传统复杂的外部“黑盒”监控模块。实验表明，TELLME不仅显著提高了模型监控的可靠性和准确性（监控准确率提升22.3%），还意外增强了模型输出的安全性（安全性提升7.5%）。此外，该方法具备强大的扩展性，适用于超大模型和视觉语言模型，并通过理论支撑证明了其有效性。TELLME为未来超级智能的“可扩展监督”提供了新的思路，标志着AI安全领域的重要突破。
来源：https://mp.weixin.qq.com/s/j8MwP3KV2Qqa_czrh-qzBA

		自动登录	找回密码
密码			立即注册

课程导航

上海AI Lab与上交大提出TELLME方法：通过表征解耦提升大模型内在透明度与安全性