模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
研究人员发现,大语言模型的遗忘不仅仅是行为上的抑制,而是涉及深层次的结构变化。通过构建表示空间分析工具(如PCA相似度、CKA、Fisher信息矩阵),研究团队首次系统性地区分了可逆遗忘与不可逆遗忘的本质差异。研究表明,当前基于token级别的评估方法无法充分反映模型遗忘的真实情况。实验结果表明,持续遗忘的风险远高于单次操作,部分方法(如GA、RLabel)容易导致灾难性遗忘,而GA+KL、NPO等方法则更具稳定性。此外,研究还揭示了遗忘可能带来隐式增强效果,为未来设计可控、局部、不可逆的安全遗忘机制提供了理论支持。来源:https://mp.weixin.qq.com/s/V2M5w0ImgIKT5kPmsLjz1Q
页:
[1]