周大 发表于 2024-4-29 17:10:40

LongRoPE扩展LLM上下文窗口至2048k

Microsoft Research的研究人员提出了LongRoPE模型,将LLM的上下文窗口扩展到2048k个token,并通过高效搜索发现非均匀位置插值优化方法。实验证明LongRoPE在不进行微调情况下能有效扩展模型性能,保持原有架构并提供更好的初始化。
来源:https://mp.weixin.qq.com/s/8V4yGzXBsFfGwCZ4VJDE1g
页: [1]
查看完整版本: LongRoPE扩展LLM上下文窗口至2048k