OpenAI发布MLE-bench评估AI工程能力

[复制链接]
周大 发表于 2024-10-11 15:00:13 | 显示全部楼层 |阅读模式
OpenAI发布MLE-bench基准测试,评估AI智能体执行机器学习工程任务的能力。该基准包含75个真实世界Kaggle竞赛,o1-preview智能体在16.9%的比赛中达到铜牌水平,表明AI在标准技术应用上表现出色,但在创造性任务中仍显不足。研究还发现增加尝试次数能显著提升AI表现。
来源:https://mp.weixin.qq.com/s/FpJ2rfvzeAx0C5-oFsllvQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-18 02:15 , Processed in 0.262348 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表