SWEET-RL:显著提升LLM协作任务成功率

[复制链接]
周大 发表于 2025-3-23 14:44:20 | 显示全部楼层 |阅读模式
Meta FAIR与加州大学伯克利分校的研究团队提出了新基准ColBench及强化学习算法SWEET-RL。ColBench包含后端编程和前端设计两项任务,用于评估LLM智能体的推理和泛化能力。SWEET-RL通过两阶段训练方法(学习优势函数和优化智能体),利用训练时间信息显式执行credit分配,显著提升了LLM智能体在多轮协作任务上的成功率。实验显示,使用Llama-3.18B-Instruct的SWEET-RL模型性能可媲美GPT-4o等顶尖模型。
来源:https://mp.weixin.qq.com/s/sgNsSM0Vp0dIcUp08lWSFQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-5 12:23 , Processed in 0.286910 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表