交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL，昇腾加持，开创智能体训练新范式

周大发表于 2025-9-11 14:25:00

复旦大学等联合提出 AgentGym-RL，首个支持多轮交互训练的端到端强化学习框架，无需监督微调。通过“扩展环境交互”策略，提升模型在复杂任务中的表现。实验显示，仅7B参数的模型在26项任务中超越大型开源模型，并追平GPT-4o、Gemini等商业模型。该框架兼容多种环境与算法，已全面开源，为经验驱动型AI发展提供新路径。
来源：https://mp.weixin.qq.com/s/_s1c2uj8B9u-i7wgoM2gwA

页: [1]

靠浦ai课堂's Archiver

交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL，昇腾加持，开创智能体训练新范式