周大 发表于 2024-8-4 15:40:58

循环语言模型新突破:优化数据排序提升性能

斯坦福大学等机构的研究人员针对循环语言模型在长上下文学习中的局限性,提出了Just-read-twice方法。该方法通过优化数据排序和重复提示信息,显著提升了模型在上下文学习任务上的表现,并大幅增强了计算效率,相比FlashAttention-2模型吞吐量提升近20倍。
来源:https://mp.weixin.qq.com/s/zdPlK4IHeEiW0ikmQMPJUA
页: [1]
查看完整版本: 循环语言模型新突破:优化数据排序提升性能