字节跳动推出VAPO框架：突破AI推理极限，Qwen2.5-32B提分12倍超Deepseek-R1

周大发表于 2025-4-12 14:51:13

字节跳动Seed团队推出VAPO强化学习框架，旨在提升大型语言模型（LLM）在复杂任务中的推理能力。该框架针对价值导向方法在长链式推理中的三大挑战进行优化，包括初始化偏差、序列长度适应性差及奖励信号稀疏问题。通过细致价值训练框架、长度自适应GAE机制等创新技术，Qwen2.5-32B模型在AIME24测试中得分从5分跃升至60.4分，超越行业领先水平。VAPO不仅显著改善了数学推理能力，还为LLM在复杂任务中的应用提供了新方向。
来源：https://tech.ifeng.com/c/8iUYpo78zdQ

页: [1]

靠浦ai课堂's Archiver

字节跳动推出VAPO框架：突破AI推理极限，Qwen2.5-32B提分12倍超Deepseek-R1