普林斯顿发布AI科研基准测试CORE-Bench：最强模型仅有21%准确率

周大发表于 2024-9-26 18:35:49

普林斯顿大学发布CORE-Bench基准测试，评估AI在科研计算可重复性上的表现。该测试包含270个任务，覆盖计算机科学、社会科学和医学三大领域。实验显示，最佳智能体在最难任务上的准确率仅为21%，揭示了AI在科研自动化方面仍有巨大改进空间。
来源：https://mp.weixin.qq.com/s/cwvboNTwD4sBePgXf88v3w

页: [1]

靠浦ai课堂's Archiver

普林斯顿发布AI科研基准测试CORE-Bench：最强模型仅有21%准确率