大模型o3-pro通关经典推箱子游戏，突破Lmgame benchmark上限

周大发表于 2025-6-16 15:09:11

大模型o3-pro在经典小游戏推箱子和俄罗斯方块中表现出色，成功突破Lmgame benchmark的上限，成绩较前SOTA（o3）翻倍。其中，o3-pro不仅通关了所有推箱子关卡，还在俄罗斯方块中展现了持续挑战能力，尽管操作耗时较长。Lmgame benchmark涵盖六款游戏，采用迭代交互循环模式评估模型性能，各游戏有独特评价标准但未考虑时间因素。该项目由UCSD的Hao AI Lab开发，实验室在AI领域成果显著，接受谷歌和英伟达支持，近期获赠高性能计算设备。
来源：https://mp.weixin.qq.com/s/pyM_Q__uXOuLXoxa3RpSpA

页: [1]

靠浦ai课堂's Archiver

大模型o3-pro通关经典推箱子游戏，突破Lmgame benchmark上限