周大 发表于 5 天前

突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

来自牛津大学与Meta超级智能实验室的研究提出CaT方法,利用推理过程中的额外计算生成无需人工标注或外部验证的监督信号。实验显示,该方法在Gemma、Qwen和Llama等模型上显著提升性能,MATH-500最高提27%,HealthBench提12%;结合强化学习的CaT-RL进一步提升至33%和30%。自拟评分标准在不可验证任务中表现优异,且优于传统监督微调,为医疗、创意写作等领域提供了高效、可扩展的训练新路径。
来源:https://mp.weixin.qq.com/s/_WK8Vn3bhtrbqePsanKYEQ
页: [1]
查看完整版本: 突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题