Claude 3.5 Sonnet领衔自动售货机管理测试
研究人员设计了Vending-Bench模拟环境,用于评估大模型管理自动售货机的长期能力。实验显示,Claude 3.5 Sonnet在净资产方面表现最优,而o3-mini则在持续时间上领先,达到222天。尽管模型能够完成短期任务,但在长期运行中普遍存在误解配送时间或陷入崩溃循环的问题。研究发现,运营失败与内存限制无关,所有模型最终均停止运营,表现波动显著。这表明大模型在长时间连续决策方面仍面临挑战。来源:https://mp.weixin.qq.com/s/yyEukQYJ9XDIXd9er0fdJw
页:
[1]