交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
复旦大学等联合提出 AgentGym-RL,首个支持多轮交互训练的端到端强化学习框架,无需监督微调。通过“扩展环境交互”策略,提升模型在复杂任务中的表现。实验显示,仅7B参数的模型在26项任务中超越大型开源模型,并追平GPT-4o、Gemini等商业模型。该框架兼容多种环境与算法,已全面开源,为经验驱动型AI发展提供新路径。来源:https://mp.weixin.qq.com/s/_s1c2uj8B9u-i7wgoM2gwA
页:
[1]