英伟达研究：大模型上下文长度虚标，32K以上性能普遍下降

周大发表于 2024-6-3 14:40:39

英伟达的一项新研究揭示，尽管一些大语言模型声称能处理长达1M的上下文，但实际在“有效上下文长度”上表现不佳。新提出的RULER基准测试显示，多数模型在超过32K的上下文长度时性能大幅下滑。在所有受测模型中，GPT-4在扩展上下文时性能下降最少，而开源模型Command-R、Yi-34B和Mixtral展现出较好的长上下文处理能力。
来源：https://mp.weixin.qq.com/s/pNUT8_T5YMJXrzLbzUi9ww

		自动登录	找回密码
密码			立即注册

课程导航

英伟达研究：大模型上下文长度虚标，32K以上性能普遍下降