字节跳动推出VAPO框架:突破AI推理极限,Qwen2.5-32B提分12倍超Deepseek-R1

[复制链接]
周大 发表于 2025-4-12 14:51:13 | 显示全部楼层 |阅读模式
字节跳动Seed团队推出VAPO强化学习框架,旨在提升大型语言模型(LLM)在复杂任务中的推理能力。该框架针对价值导向方法在长链式推理中的三大挑战进行优化,包括初始化偏差、序列长度适应性差及奖励信号稀疏问题。通过细致价值训练框架、长度自适应GAE机制等创新技术,Qwen2.5-32B模型在AIME24测试中得分从5分跃升至60.4分,超越行业领先水平。VAPO不仅显著改善了数学推理能力,还为LLM在复杂任务中的应用提供了新方向。
来源:https://tech.ifeng.com/c/8iUYpo78zdQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 02:25 , Processed in 0.300988 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表