OpenAI发布MLE-bench评估AI工程能力

周大发表于 2024-10-11 15:00:13

OpenAI发布MLE-bench基准测试，评估AI智能体执行机器学习工程任务的能力。该基准包含75个真实世界Kaggle竞赛，o1-preview智能体在16.9%的比赛中达到铜牌水平，表明AI在标准技术应用上表现出色，但在创造性任务中仍显不足。研究还发现增加尝试次数能显著提升AI表现。
来源：https://mp.weixin.qq.com/s/FpJ2rfvzeAx0C5-oFsllvQ

页: [1]

靠浦ai课堂's Archiver

OpenAI发布MLE-bench评估AI工程能力