IN2训练法:改善大语言模型的“中间迷失”问题
西交大、微软和北大研究人员合作开发了一种名为IN2的信息密集型训练策略,以解决大语言模型在处理长文本时的“中间迷失”问题。这一问题导致模型只记住输入的开头和结尾。通过使用合成问答数据,IN2训练方法教导模型重视上下文中的所有信息。实验表明,经过IN2训练的Mistral-7B(FILM-7B)在长上下文任务中表现出色,超越了更大规模的模型。来源:https://mp.weixin.qq.com/s/O0GXiaa3aypMWLJcvyboYA
页:
[1]