UCSD推出Lmgame Bench基准测试框架，o3模型横扫俄罗斯方块等游戏力压Gemini夺冠

周大发表于 2025-7-1 14:32:08

UCSD等推出Lmgame Bench评测框架，通过多款经典游戏系统评估大模型的感知、记忆与推理能力。研究发现不同模型在推箱子、马里奥等游戏中表现差异显著，反映出当前AI在基础认知任务上的局限性。框架采用模块化设计与标准化接口，提升评测一致性与可比性，旨在推动LLM在动态环境中真实智能的发展。
来源：https://mp.weixin.qq.com/s/y1AbevqwdfIJnx7ffkaKUw

页: [1]

靠浦ai课堂's Archiver

UCSD推出Lmgame Bench基准测试框架，o3模型横扫俄罗斯方块等游戏力压Gemini夺冠