Google DeepMind 和 Google Research 提出了一种新的推理感知型对齐框架(InfAlign),旨在解决生成式语言模型在推理时间胜率优化方面的问题。该框架通过引入适合特定推理时间流程的奖励变换,并结合现有的优化算法如PPO,实现了更优的模型对齐效果。实验结果表明,这种方法可以在实际应用场景中显著提高模型性能,特别是在Best-of-N和Worst-of-N任务上,分别获得了8-12%和4-9%的胜率提升。此外,研究还提出了一种名为CTRL的新算法,进一步增强了对齐过程的有效性。
来源:https://mp.weixin.qq.com/s/XIkTBTh9GUeaHXX-b26u_A