周大 发表于 2024-4-18 23:28:22

SuperBench 大模型能力评测报告发布

清华大学与中关村实验室合作推出的 SuperBench 大模型综合能力评测框架显示,GPT-4系列和Claude-3等国外大模型在多项能力上领先,国内头部大模型表现逐渐接近国际水平,但仍需努力。随着大模型研究发展,评测方法逐步转向智能体评测,为大模型技术发展指明方向。
来源:https://mp.weixin.qq.com/s/XZrZbkYbJIyVygIU3pLX9Q
页: [1]
查看完整版本: SuperBench 大模型能力评测报告发布