周大 发表于 2025-3-3 14:32:46

游戏成AI评估新标杆:Claude 3.7表现惊艳

随着AI技术发展,传统评估基准面临挑战。加州大学圣迭戈分校Hao AI Lab通过经典游戏如超级马里奥测试AI智能体性能,结果显示Anthropic的Claude 3.7表现突出,在游戏中持续90秒并发现隐藏奖励;而其他知名模型如GPT-4o和Gemini系列则表现欠佳。这一研究结果表明,游戏或将成为评估大型语言模型的新标准,为AI评估开辟新路径。
来源:https://mp.weixin.qq.com/s/IAcXyI32rfNqqu8lWkShmg
页: [1]
查看完整版本: 游戏成AI评估新标杆:Claude 3.7表现惊艳