英伟达研究:大模型上下文长度虚标,32K以上性能普遍下降
英伟达的一项新研究揭示,尽管一些大语言模型声称能处理长达1M的上下文,但实际在“有效上下文长度”上表现不佳。新提出的RULER基准测试显示,多数模型在超过32K的上下文长度时性能大幅下滑。在所有受测模型中,GPT-4在扩展上下文时性能下降最少,而开源模型Command-R、Yi-34B和Mixtral展现出较好的长上下文处理能力。来源:https://mp.weixin.qq.com/s/pNUT8_T5YMJXrzLbzUi9ww
页:
[1]