UCSD推出Lmgame Bench基准测试框架,o3模型横扫俄罗斯方块等游戏力压Gemini夺冠
UCSD等推出Lmgame Bench评测框架,通过多款经典游戏系统评估大模型的感知、记忆与推理能力。研究发现不同模型在推箱子、马里奥等游戏中表现差异显著,反映出当前AI在基础认知任务上的局限性。框架采用模块化设计与标准化接口,提升评测一致性与可比性,旨在推动LLM在动态环境中真实智能的发展。来源:https://mp.weixin.qq.com/s/y1AbevqwdfIJnx7ffkaKUw
页:
[1]