周大 发表于 2025-8-24 14:23:19

仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3

蚂蚁技术研究院与浙江大学联合开源全新强化学习范式 Rubicon,突破传统强化学习在主观任务中的限制。该模型通过构建包含超 10,000 条评分标准的知识库,教会 AI 理解主观评价体系。实验表明,仅用 5000+ 样本训练的 Rubicon-preview 模型在主观任务中表现优于 671B 参数模型,同时兼顾推理能力,有效破解“AI 味”与“跷跷板效应”,为 AI 创造力提升开辟新路径。
来源:https://mp.weixin.qq.com/s/4yUiR6Z6rNQqdA2rCUQ0aA
页: [1]
查看完整版本: 仅靠5000+样本,全新强化学习范式让30B轻松击败671B的DeepSeek V3