清华等团队设计REST框架给AI“压力面”,DeepSeek等模型性能暴跌近30%
来自上海人工智能实验室、清华和人大团队提出名为REST的新评测框架,通过在单prompt中并发输入多题,对大模型进行“压力测试”。结果显示,即便是顶级模型如DeepSeek-R1,在AIME24上的准确率也下降29.1%。REST解决了当前评测区分度低、成本高和脱离现实的问题,评估模型在多任务下的推理能力,如上下文分配、抗干扰和负载管理。实验显示,小模型在高压下表现更差,而采用long2short技术的模型更具优势。REST为评测大模型真实推理能力提供了新范式。来源:https://mp.weixin.qq.com/s/dg81gswwgdc1LiIA0CMVPQ
页:
[1]