AIDE 框架在 MLE-bench 中表现优异,助力 AI 自动化工程

[复制链接]
周大 发表于 2024-10-26 14:55:20 | 显示全部楼层 |阅读模式
OpenAI 推出新基准测试 MLE-bench,涵盖 75 个 Kaggle 竞赛题目,旨在全面衡量自主的端到端机器学习工程。结果显示,GPT-4o 结合 AIDE 框架的表现显著优于其他开源 Agent 框架。当模型切换到 OpenAI o1-preview 后,表现进一步提升,16.9% 的比赛中达到 Kaggle 铜牌以上水平,8 次尝试后提升至 34.1%。AIDE 采用 AI Function 设计范式,通过解空间树搜索算法逐步优化解决方案,在 Kaggle 数据科学比赛中的平均表现超过 50% 的人类参赛者。WecoAI 团队来自伦敦大学学院,致力于开发 AI 智能体,计划推出 AI Function Builder 产品,未来 AI 在科学研究中的作用将更加重要,可能改变研究方向和方法。
来源:https://mp.weixin.qq.com/s/uJ4bwe3HO2yHrqoml1iO1g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-5-17 21:22 , Processed in 0.288916 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表