UCSD推出Lmgame Bench基准测试框架,o3模型横扫俄罗斯方块等游戏力压Gemini夺冠

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
UCSD等推出Lmgame Bench评测框架,通过多款经典游戏系统评估大模型的感知、记忆与推理能力。研究发现不同模型在推箱子、马里奥等游戏中表现差异显著,反映出当前AI在基础认知任务上的局限性。框架采用模块化设计与标准化接口,提升评测一致性与可比性,旨在推动LLM在动态环境中真实智能的发展。
来源:https://mp.weixin.qq.com/s/y1AbevqwdfIJnx7ffkaKUw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 22:38 , Processed in 0.280347 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表