上海交大联合深势科技开源X-Master系统,在"人类最后的考试"中创32.1分新纪录

[复制链接]
周大 发表于 2025-7-9 14:44:18 | 显示全部楼层 |阅读模式
上海交通大学与深势科技合作,在极具挑战性的大模型评测集“人类最后的考试”(HLE)中首次突破30分,以32.1分创下新纪录。团队开发了工具增强推理智能体X-Master及其多智能体协作系统X-Masters,并已开源。X-Master通过将代码作为交互语言,结合外部工具与内部推理实现动态问题解决,而X-Masters则通过“分散-堆叠”架构提升推理深度和广度。测试显示,X-Masters在生物医药等复杂任务中表现优异,尤其在生物学测试TRQA-lit(choice)中达到67.4%的准确率。HLE由AI安全中心和Scale AI推出,包含3000多道研究生难度题目,涵盖数理化、生物医学、社会科学等多个领域,此前最高分为26.9分。此次突破性成果标志着国内在通用科学AI智能体研发方面取得重要进展。
来源:https://mp.weixin.qq.com/s/U6QKmdtgbSpdMwQNTTU97w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-8-24 05:02 , Processed in 0.268640 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表