强化学习突破：L-Zero让大模型自主进化，性能提升最高达166% | 已开源

周大发表于 2025-7-1 14:45:40

招商局狮子山人工智能实验室提出基于RLVR范式的L0系统，推动大模型实现自主学习能力。该系统通过结构化智能体NB-Agent和端到端强化学习流程，赋予模型探索、验证与记忆等类人能力，并突破上下文限制。实验显示，在Qwen2.5-7B基础上，L0-RL在HotpotQA和SimpleQA上的表现分别提升84%和166%，优于现有方法。这一进展标志着智能体向更高通用性与自主性迈进，且所有模型与训练资源已开源。
来源：https://mp.weixin.qq.com/s/0kvYCLAJArY769IxGVD3UA

		自动登录	找回密码
密码			立即注册

课程导航

强化学习突破：L-Zero让大模型自主进化，性能提升最高达166% | 已开源