清华等团队设计REST框架给AI“压力面”,DeepSeek等模型性能暴跌近30%

[复制链接]
周大 发表于 2025-7-19 15:08:58 | 显示全部楼层 |阅读模式
来自上海人工智能实验室、清华和人大团队提出名为REST的新评测框架,通过在单prompt中并发输入多题,对大模型进行“压力测试”。结果显示,即便是顶级模型如DeepSeek-R1,在AIME24上的准确率也下降29.1%。REST解决了当前评测区分度低、成本高和脱离现实的问题,评估模型在多任务下的推理能力,如上下文分配、抗干扰和负载管理。实验显示,小模型在高压下表现更差,而采用long2short技术的模型更具优势。REST为评测大模型真实推理能力提供了新范式。
来源:https://mp.weixin.qq.com/s/dg81gswwgdc1LiIA0CMVPQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-23 12:01 , Processed in 0.308975 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表