周大 发表于 2024-11-15 14:42:33

李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶

李飞飞吴佳俊团队提出新的具身智能决策评估框架EAI,对18款主流模型进行了全面测试,形成超百页论文。EAI通过引入线性时态逻辑(LTL)实现目标表示方式的统一,采用模块化评估方式,细粒度划分评估指标。测试结果显示,o1-preview在BEHAVIOR和VirtualHome两个环境中综合成绩排名第一。研究团队还对模型的失败情况进行深入分析,为后续研究提供了重要参考。
来源:https://mp.weixin.qq.com/s/ixiGVdBZKm4-wnmH3KoHRg
页: [1]
查看完整版本: 李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶