又一推理新范式:将LLM自身视作「改进操作符」,突破长思维链极限

[复制链接]
周大 发表于 7 天前 | 显示全部楼层 |阅读模式
Meta、UCL、Mila 和 Anthropic 等机构提出并行-蒸馏-精炼(PDR)推理框架,通过并行生成、摘要蒸馏与迭代精炼,在控制上下文长度的同时提升大模型在数学任务中的准确性。实验显示,在 AIME 2024 和 2025 上,PDR 使 o3-mini 准确率相较长思维链提升达 +9.8 个百分点,且延迟更低。研究还发现,结合操作符一致性强化学习可进一步推动性能边界,在相同预算下显著提升模型表现,验证了短上下文迭代推理的潜力。
来源:https://mp.weixin.qq.com/s/mBy2jUF7VythOxB4oJWp0w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-10-10 03:06 , Processed in 0.305191 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表