普林斯顿发布AI科研基准测试CORE-Bench：最强模型仅有21%准确率

周大发表于 2024-9-26 18:35:49

普林斯顿大学发布CORE-Bench基准测试，评估AI在科研计算可重复性上的表现。该测试包含270个任务，覆盖计算机科学、社会科学和医学三大领域。实验显示，最佳智能体在最难任务上的准确率仅为21%，揭示了AI在科研自动化方面仍有巨大改进空间。
来源：https://mp.weixin.qq.com/s/cwvboNTwD4sBePgXf88v3w

		自动登录	找回密码
密码			立即注册

课程导航

普林斯顿发布AI科研基准测试CORE-Bench：最强模型仅有21%准确率