Meta FAIR与加州大学伯克利分校的研究团队提出了新基准ColBench及强化学习算法SWEET-RL。ColBench包含后端编程和前端设计两项任务,用于评估LLM智能体的推理和泛化能力。SWEET-RL通过两阶段训练方法(学习优势函数和优化智能体),利用训练时间信息显式执行credit分配,显著提升了LLM智能体在多轮协作任务上的成功率。实验显示,使用Llama-3.18B-Instruct的SWEET-RL模型性能可媲美GPT-4o等顶尖模型。
来源:https://mp.weixin.qq.com/s/sgNsSM0Vp0dIcUp08lWSFQ