CMU等研究者发现：循环模型经500步后训练干预，可突破256k长度泛化极限

周大发表于 2025-7-8 15:26:02

循环模型如 Mamba 在处理长序列方面具有天然优势，但此前难以泛化至训练长度之外。最新研究指出，通过简单的训练干预（如状态传递），仅需 500 步微调即可实现高达 256k 长度的泛化。研究提出“未探索状态假说”，并验证多种干预方法的有效性，其中状态传递和 TBTT 效果最佳。实验表明这些方法不仅提升了模型在长上下文任务中的表现，还优化了其对上下文信息的记忆与利用方式，从而增强模型稳定性与泛化能力。
来源：https://mp.weixin.qq.com/s/l-J4N6hlFyiCHRmkdeIC6g

		自动登录	找回密码
密码			立即注册

课程导航

CMU等研究者发现：循环模型经500步后训练干预，可突破256k长度泛化极限