突破后训练瓶颈?Meta超级智能实验室又一力作:CaT解决RL监督难题

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
来自牛津大学与Meta超级智能实验室的研究提出CaT方法,利用推理过程中的额外计算生成无需人工标注或外部验证的监督信号。实验显示,该方法在Gemma、Qwen和Llama等模型上显著提升性能,MATH-500最高提27%,HealthBench提12%;结合强化学习的CaT-RL进一步提升至33%和30%。自拟评分标准在不可验证任务中表现优异,且优于传统监督微调,为医疗、创意写作等领域提供了高效、可扩展的训练新路径。
来源:https://mp.weixin.qq.com/s/_WK8Vn3bhtrbqePsanKYEQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-9-27 14:05 , Processed in 0.273728 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表