强化学习突破:L-Zero让大模型自主进化,性能提升最高达166% | 已开源

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
招商局狮子山人工智能实验室提出基于RLVR范式的L0系统,推动大模型实现自主学习能力。该系统通过结构化智能体NB-Agent和端到端强化学习流程,赋予模型探索、验证与记忆等类人能力,并突破上下文限制。实验显示,在Qwen2.5-7B基础上,L0-RL在HotpotQA和SimpleQA上的表现分别提升84%和166%,优于现有方法。这一进展标志着智能体向更高通用性与自主性迈进,且所有模型与训练资源已开源。
来源:https://mp.weixin.qq.com/s/0kvYCLAJArY769IxGVD3UA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-7-5 22:01 , Processed in 0.288636 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表