Claude 3.5 Sonnet领衔自动售货机管理测试

周大发表于 2025-5-25 15:12:34

研究人员设计了Vending-Bench模拟环境，用于评估大模型管理自动售货机的长期能力。实验显示，Claude 3.5 Sonnet在净资产方面表现最优，而o3-mini则在持续时间上领先，达到222天。尽管模型能够完成短期任务，但在长期运行中普遍存在误解配送时间或陷入崩溃循环的问题。研究发现，运营失败与内存限制无关，所有模型最终均停止运营，表现波动显著。这表明大模型在长时间连续决策方面仍面临挑战。
来源：https://mp.weixin.qq.com/s/yyEukQYJ9XDIXd9er0fdJw

页: [1]

靠浦ai课堂's Archiver

Claude 3.5 Sonnet领衔自动售货机管理测试