李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶

[复制链接]
周大 发表于 2024-11-15 14:42:33 | 显示全部楼层 |阅读模式
李飞飞吴佳俊团队提出新的具身智能决策评估框架EAI,对18款主流模型进行了全面测试,形成超百页论文。EAI通过引入线性时态逻辑(LTL)实现目标表示方式的统一,采用模块化评估方式,细粒度划分评估指标。测试结果显示,o1-preview在BEHAVIOR和VirtualHome两个环境中综合成绩排名第一。研究团队还对模型的失败情况进行深入分析,为后续研究提供了重要参考。
来源:https://mp.weixin.qq.com/s/ixiGVdBZKm4-wnmH3KoHRg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-27 01:43 , Processed in 0.287088 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表