上海交大联合深势科技开源X-Master系统,在"人类最后的考试"中创32.1分新纪录
上海交通大学与深势科技合作,在极具挑战性的大模型评测集“人类最后的考试”(HLE)中首次突破30分,以32.1分创下新纪录。团队开发了工具增强推理智能体X-Master及其多智能体协作系统X-Masters,并已开源。X-Master通过将代码作为交互语言,结合外部工具与内部推理实现动态问题解决,而X-Masters则通过“分散-堆叠”架构提升推理深度和广度。测试显示,X-Masters在生物医药等复杂任务中表现优异,尤其在生物学测试TRQA-lit(choice)中达到67.4%的准确率。HLE由AI安全中心和Scale AI推出,包含3000多道研究生难度题目,涵盖数理化、生物医学、社会科学等多个领域,此前最高分为26.9分。此次突破性成果标志着国内在通用科学AI智能体研发方面取得重要进展。来源:https://mp.weixin.qq.com/s/U6QKmdtgbSpdMwQNTTU97w
页:
[1]