CMU等研究者发现:循环模型经500步后训练干预,可突破256k长度泛化极限

[复制链接]
周大 发表于 2025-7-8 15:26:02 | 显示全部楼层 |阅读模式
循环模型如 Mamba 在处理长序列方面具有天然优势,但此前难以泛化至训练长度之外。最新研究指出,通过简单的训练干预(如状态传递),仅需 500 步微调即可实现高达 256k 长度的泛化。研究提出“未探索状态假说”,并验证多种干预方法的有效性,其中状态传递和 TBTT 效果最佳。实验表明这些方法不仅提升了模型在长上下文任务中的表现,还优化了其对上下文信息的记忆与利用方式,从而增强模型稳定性与泛化能力。
来源:https://mp.weixin.qq.com/s/l-J4N6hlFyiCHRmkdeIC6g

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 05:05 , Processed in 0.280391 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表