仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3

周大发表于 2025-8-24 14:23:19

蚂蚁技术研究院与浙江大学联合开源全新强化学习范式 Rubicon，突破传统强化学习在主观任务中的限制。该模型通过构建包含超 10,000 条评分标准的知识库，教会 AI 理解主观评价体系。实验表明，仅用 5000+ 样本训练的 Rubicon-preview 模型在主观任务中表现优于 671B 参数模型，同时兼顾推理能力，有效破解“AI 味”与“跷跷板效应”，为 AI 创造力提升开辟新路径。
来源：https://mp.weixin.qq.com/s/4yUiR6Z6rNQqdA2rCUQ0aA

页: [1]

靠浦ai课堂's Archiver

仅靠5000+样本，全新强化学习范式让30B轻松击败671B的DeepSeek V3