周大 发表于 2025-7-8 15:26:02

CMU等研究者发现:循环模型经500步后训练干预,可突破256k长度泛化极限

循环模型如 Mamba 在处理长序列方面具有天然优势,但此前难以泛化至训练长度之外。最新研究指出,通过简单的训练干预(如状态传递),仅需 500 步微调即可实现高达 256k 长度的泛化。研究提出“未探索状态假说”,并验证多种干预方法的有效性,其中状态传递和 TBTT 效果最佳。实验表明这些方法不仅提升了模型在长上下文任务中的表现,还优化了其对上下文信息的记忆与利用方式,从而增强模型稳定性与泛化能力。
来源:https://mp.weixin.qq.com/s/l-J4N6hlFyiCHRmkdeIC6g
页: [1]
查看完整版本: CMU等研究者发现:循环模型经500步后训练干预,可突破256k长度泛化极限