大模型长文本生成能力不足：LIFEBENCH基准测试揭示模型普遍不达标

周大发表于 2025-5-29 14:16:41

一项最新研究通过LIFEBENCH基准测试集评估了26个主流大语言模型在长度指令遵循方面的能力，揭示了它们在长文本生成任务中的显著短板。测试结果显示，大多数模型在面对明确长度要求时表现欠佳，尤其是在生成超长文本时容易提前终止或拒绝生成。研究指出，模型存在三大核心瓶颈：缺乏准确的长度感知能力、对输入长度敏感以及采用懒惰生成策略。此外，动态校准方法虽然在短文本任务中有效，但在长文本场景中效率低下。进一步分析表明，模型在长文本生成中的质量随长度增加而下降，并且在处理复杂格式任务时更容易出错。研究建议通过改进预训练数据覆盖和引入后训练优化策略来提升模型的表现，以应对未来更复杂的生成需求。
来源：https://mp.weixin.qq.com/s/VE-3UCGJrHQ3feBga7svzA

页: [1]

靠浦ai课堂's Archiver

大模型长文本生成能力不足：LIFEBENCH基准测试揭示模型普遍不达标