周大 发表于 2024-10-11 15:00:13

OpenAI发布MLE-bench评估AI工程能力

OpenAI发布MLE-bench基准测试,评估AI智能体执行机器学习工程任务的能力。该基准包含75个真实世界Kaggle竞赛,o1-preview智能体在16.9%的比赛中达到铜牌水平,表明AI在标准技术应用上表现出色,但在创造性任务中仍显不足。研究还发现增加尝试次数能显著提升AI表现。
来源:https://mp.weixin.qq.com/s/FpJ2rfvzeAx0C5-oFsllvQ
页: [1]
查看完整版本: OpenAI发布MLE-bench评估AI工程能力