大模型训练新突破!“不对称”训练让AI学会自我反思,推理零开销
字节团队提出一种名为Post-Completion Learning (PCL)的新型语言模型训练方法,首次实现“训练-推理不对称”机制。PCL在训练时让模型输出推理、答案及自我评估,推理阶段仅输出前两部分,从而在零额外开销下显著提升模型性能。该方法打破传统训练对称性限制,引入白盒化强化学习机制,并采用SFT与RL混合训练框架。实验表明,PCL在多个模型和任务中均表现优异,为未来大模型训练提供了高效、可解释、解耦训练与推理的新范式。来源:https://mp.weixin.qq.com/s/fuixPgZYWHYZYn0zlDcnIA
页:
[1]