仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

[复制链接]
周大 发表于 2025-8-24 14:23:19 | 显示全部楼层 |阅读模式
蚂蚁技术研究院与浙江大学联合开源全新强化学习范式 Rubicon,突破传统强化学习在主观任务中的限制。该模型通过构建包含超 10,000 条评分标准的知识库,教会 AI 理解主观评价体系。实验表明,仅用 5000+ 样本训练的 Rubicon-preview 模型在主观任务中表现优于 671B 参数模型,同时兼顾推理能力,有效破解“AI 味”与“跷跷板效应”,为 AI 创造力提升开辟新路径。
来源:https://mp.weixin.qq.com/s/4yUiR6Z6rNQqdA2rCUQ0aA

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 21:07 , Processed in 0.284669 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表