执行推理时能对齐语言模型吗?谷歌InfAlign带来一种对齐新思路

[复制链接]
周大 发表于 2025-1-27 15:59:40 | 显示全部楼层 |阅读模式
Google DeepMind 和 Google Research 提出了一种新的推理感知型对齐框架(InfAlign),旨在解决生成式语言模型在推理时间胜率优化方面的问题。该框架通过引入适合特定推理时间流程的奖励变换,并结合现有的优化算法如PPO,实现了更优的模型对齐效果。实验结果表明,这种方法可以在实际应用场景中显著提高模型性能,特别是在Best-of-N和Worst-of-N任务上,分别获得了8-12%和4-9%的胜率提升。此外,研究还提出了一种名为CTRL的新算法,进一步增强了对齐过程的有效性。
来源:https://mp.weixin.qq.com/s/XIkTBTh9GUeaHXX-b26u_A

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-4-21 11:32 , Processed in 0.269623 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表