周大 发表于 2025-4-12 14:51:13

字节跳动推出VAPO框架:突破AI推理极限,Qwen2.5-32B提分12倍超Deepseek-R1

字节跳动Seed团队推出VAPO强化学习框架,旨在提升大型语言模型(LLM)在复杂任务中的推理能力。该框架针对价值导向方法在长链式推理中的三大挑战进行优化,包括初始化偏差、序列长度适应性差及奖励信号稀疏问题。通过细致价值训练框架、长度自适应GAE机制等创新技术,Qwen2.5-32B模型在AIME24测试中得分从5分跃升至60.4分,超越行业领先水平。VAPO不仅显著改善了数学推理能力,还为LLM在复杂任务中的应用提供了新方向。
来源:https://tech.ifeng.com/c/8iUYpo78zdQ
页: [1]
查看完整版本: 字节跳动推出VAPO框架:突破AI推理极限,Qwen2.5-32B提分12倍超Deepseek-R1