游戏成AI评估新标杆：Claude 3.7表现惊艳

周大发表于 2025-3-3 14:32:46

随着AI技术发展，传统评估基准面临挑战。加州大学圣迭戈分校Hao AI Lab通过经典游戏如超级马里奥测试AI智能体性能，结果显示Anthropic的Claude 3.7表现突出，在游戏中持续90秒并发现隐藏奖励；而其他知名模型如GPT-4o和Gemini系列则表现欠佳。这一研究结果表明，游戏或将成为评估大型语言模型的新标准，为AI评估开辟新路径。
来源：https://mp.weixin.qq.com/s/IAcXyI32rfNqqu8lWkShmg

页: [1]

靠浦ai课堂's Archiver

游戏成AI评估新标杆：Claude 3.7表现惊艳