普林斯顿发布AI科研基准测试CORE-Bench:最强模型仅有21%准确率

[复制链接]
周大 发表于 2024-9-26 18:35:49 | 显示全部楼层 |阅读模式
普林斯顿大学发布CORE-Bench基准测试,评估AI在科研计算可重复性上的表现。该测试包含270个任务,覆盖计算机科学、社会科学和医学三大领域。实验显示,最佳智能体在最难任务上的准确率仅为21%,揭示了AI在科研自动化方面仍有巨大改进空间。
来源:https://mp.weixin.qq.com/s/cwvboNTwD4sBePgXf88v3w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 07:36 , Processed in 0.275784 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表