强化学习突破:L-Zero让大模型自主进化,性能提升最高达166% | 已开源
招商局狮子山人工智能实验室提出基于RLVR范式的L0系统,推动大模型实现自主学习能力。该系统通过结构化智能体NB-Agent和端到端强化学习流程,赋予模型探索、验证与记忆等类人能力,并突破上下文限制。实验显示,在Qwen2.5-7B基础上,L0-RL在HotpotQA和SimpleQA上的表现分别提升84%和166%,优于现有方法。这一进展标志着智能体向更高通用性与自主性迈进,且所有模型与训练资源已开源。来源:https://mp.weixin.qq.com/s/0kvYCLAJArY769IxGVD3UA
页:
[1]