周大 发表于 2025-6-1 14:27:43

港理工等团队揭示大模型“伪遗忘”:真正遗忘是结构抹除,非行为抑制

研究团队通过构建表示空间诊断工具,揭示大语言模型遗忘现象背后的结构变化规律。实验表明,真正的遗忘需多层网络协同扰动,而轻微更新仅导致可逆遗忘。持续遗忘风险远高于单次操作,部分方法(如GA+KL、NPO)更稳定。此外,遗忘可能带来隐式增强效果,Relearning后模型表现优于初始状态。该研究为实现可控、局部、不可逆的安全遗忘机制提供了新思路。
来源:https://mp.weixin.qq.com/s/85OjG7m1yJmCLTN6TFI-Cg
页: [1]
查看完整版本: 港理工等团队揭示大模型“伪遗忘”:真正遗忘是结构抹除,非行为抑制