港理工等团队揭示大模型“伪遗忘”：真正遗忘是结构抹除，非行为抑制

周大发表于 2025-6-1 14:27:43

研究团队通过构建表示空间诊断工具，揭示大语言模型遗忘现象背后的结构变化规律。实验表明，真正的遗忘需多层网络协同扰动，而轻微更新仅导致可逆遗忘。持续遗忘风险远高于单次操作，部分方法（如GA+KL、NPO）更稳定。此外，遗忘可能带来隐式增强效果，Relearning后模型表现优于初始状态。该研究为实现可控、局部、不可逆的安全遗忘机制提供了新思路。
来源：https://mp.weixin.qq.com/s/85OjG7m1yJmCLTN6TFI-Cg

页: [1]

靠浦ai课堂's Archiver

港理工等团队揭示大模型“伪遗忘”：真正遗忘是结构抹除，非行为抑制