周大 发表于 2024-9-26 18:35:49

普林斯顿发布AI科研基准测试CORE-Bench:最强模型仅有21%准确率

普林斯顿大学发布CORE-Bench基准测试,评估AI在科研计算可重复性上的表现。该测试包含270个任务,覆盖计算机科学、社会科学和医学三大领域。实验显示,最佳智能体在最难任务上的准确率仅为21%,揭示了AI在科研自动化方面仍有巨大改进空间。
来源:https://mp.weixin.qq.com/s/cwvboNTwD4sBePgXf88v3w
页: [1]
查看完整版本: 普林斯顿发布AI科研基准测试CORE-Bench:最强模型仅有21%准确率