李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶

周大发表于 2024-11-15 14:42:33

李飞飞吴佳俊团队提出新的具身智能决策评估框架EAI，对18款主流模型进行了全面测试，形成超百页论文。EAI通过引入线性时态逻辑（LTL）实现目标表示方式的统一，采用模块化评估方式，细粒度划分评估指标。测试结果显示，o1-preview在BEHAVIOR和VirtualHome两个环境中综合成绩排名第一。研究团队还对模型的失败情况进行深入分析，为后续研究提供了重要参考。
来源：https://mp.weixin.qq.com/s/ixiGVdBZKm4-wnmH3KoHRg

页: [1]

靠浦ai课堂's Archiver

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶